블로그로 돌아가기

LLM은 왜 쉬운 것도 틀릴까

2025-01-06personal

LLM은 왜 쉬운 것도 틀릴까

LLM을 쓰다 보면 신기한 순간도 많지만, 이상하게 쉬운 문제에서 틀리는 경우도 많습니다. 글은 자연스럽게 쓰면서 strawberryr이 몇 개인지 같은 문제를 틀리는 식입니다. 이 글은 그런 현상이 단순한 버그라기보다 모델 구조와 관련이 있다는 관점에서 정리한 글입니다.

트랜스포머의 등장과 혁신

2017년 "Attention is All You Need" 논문 이후 트랜스포머는 거의 현대 LLM의 기본 구조가 됐습니다. ChatGPT, Claude, Gemini, LLaMA 같은 모델들도 이 흐름 위에 있습니다. 텍스트뿐 아니라 이미지, 오디오, 번역까지 확장됐고, 지금 AI 붐의 핵심 기반이라고 볼 수 있습니다.

현재 LLM의 주요 한계점

LLM은 텍스트 길이 제어에서 자주 흔들립니다. 200단어를 요청했는데 150단어나 250단어를 내놓는 식입니다. 문자열 패턴을 정확히 세는 것도 약합니다. 단순히 "strawberry"에서 r의 개수를 세는 문제나, 한글의 반복 패턴을 다루는 문제에서도 틀릴 수 있습니다.

트랜스포머 아키텍처의 구조적 특성

트랜스포머의 핵심인 어텐션 메커니즘은 문장의 모든 단어 간 관계를 동시에 고려할 수 있는 강력한 기능을 제공합니다. 이는 다음과 같은 수학적 구조로 표현됩니다:

하지만 이 구조는 시퀀스 길이가 길어질수록 계산량이 크게 늘어나는 문제가 있습니다.

여기서 n은 시퀀스 길이, d는 차원을 나타냅니다.

셀프 어텐션과 메모리 문제

트랜스포머는 여러 관점에서 단어 간 관계를 보는 멀티헤드 어텐션을 사용합니다. 성능은 좋지만, 그만큼 계산 자원도 많이 씁니다. 멀티헤드 어텐션의 수학적 구조는 다음과 같이 표현됩니다.

각 헤드가 독립적으로 연산을 수행하면서 상당한 메모리를 필요로 하게 됩니다:

Chain-of-Thought 프롬프팅 해결방안

Chain-of-Thought(CoT) 프롬프팅은 이런 한계를 어느 정도 줄이는 방법입니다. 바로 답을 내라고 하지 않고, 중간 과정을 쓰게 만드는 방식입니다. 수식으로 표현하면 다음처럼 볼 수 있습니다.

CoT의 실제 적용 예시

일반적인 프롬프팅과 CoT 프롬프팅의 차이는 다음과 같습니다:

일반적 프롬프팅:

Q: strawberry에서 'r'의 개수는?
A: 2개

CoT 프롬프팅:

Q: strawberry에서 'r'의 개수를 단계별로 세어주세요.
A: 1단계: 각 글자 확인
   s(r없음) → t(r없음) → r(첫번째) → a(r없음) → w(r없음)
   → b(r없음) → e(r없음) → r(두번째) → r(세번째) → y(r없음)
   총 개수: 3개

하드웨어 요구사항과 제약

현대의 트랜스포머 모델은 상당한 컴퓨팅 파워를 필요로 합니다. 대략 다음 수식처럼 생각할 수 있습니다.

그래서 NVIDIA GPU 같은 고성능 하드웨어가 중요해졌습니다. 모델 성능 이야기를 하다 보면 결국 전력, 메모리, GPU 가격 같은 현실적인 문제로 돌아오게 됩니다.

차세대 아키텍처와 미래 전망

MOE (Mixture of Experts) 아키텍처

MOE는 트랜스포머의 한계를 극복하기 위한 혁신적인 접근 방식으로, 여러 전문가 모델들을 효과적으로 결합합니다. 이 아키텍처는 계산 효율성을 크게 향상시키는데, 필요한 경우에만 특정 전문가 모델을 활성화함으로써 전체 시스템의 계산 부하를 줄일 수 있습니다. 또한 메모리 사용을 최적화하여, 한정된 자원으로도 더 큰 모델을 운영할 수 있게 합니다. 각 전문가 모델이 특정 태스크에 특화되어 있어, 복잡한 문제를 더 효과적으로 해결할 수 있습니다.

MOE의 수학적 구조는 다음과 같이 표현됩니다:

여기서 g_i(x)는 각 전문가를 선택하는 게이팅 함수이며, f_i(x)는 각 전문가 모델의 출력을 나타냅니다. 이러한 구조를 통해 시스템은 입력에 따라 가장 적합한 전문가를 동적으로 선택하여 처리할 수 있습니다.

하이퍼스케일 AI 연구 동향

하이퍼스케일 AI는 대규모 확장성을 목표로 발전하고 있으며, 그 성능은 다음과 같은 스케일링 법칙을 따릅니다:

이 식에서 N은 파라미터 수, C는 컴퓨팅 능력을 나타내며, α와 β는 스케일링 계수입니다. 이러한 관계는 모델 크기와 컴퓨팅 파워 증가에 따른 성능 향상을 예측하는 데 도움을 줍니다.

Mamba 아키텍처

Mamba는 선택적 상태 공간 모델링을 통해 트랜스포머의 한계를 극복하려는 새로운 시도입니다. 이 모델의 핵심 메커니즘은 다음과 같이 표현됩니다:

Mamba는 선형 시간 복잡도를 가지고 있어 긴 시퀀스를 효율적으로 처리할 수 있으며, 메모리 사용량도 크게 개선되었습니다. 특히 긴 문맥을 필요로 하는 태스크에서 뛰어난 성능을 보여줍니다.

앞으로의 발전 방향

AI 기술은 결국 더 똑똑해지는 것뿐 아니라, 더 효율적으로 돌아가는 방향으로도 발전해야 합니다. 성능 대비 자원 사용률을 단순화하면 다음처럼 표현할 수 있습니다.

확장성 강화를 위해 분산 처리 기술이 발전하고 있으며, 모듈화된 아키텍처와 리소스 최적화 기술이 도입되고 있습니다. 새로운 패러다임으로는 하이브리드 아키텍처, 생물학적 영감을 받은 모델, 양자 컴퓨팅 통합 등이 연구되고 있습니다.

중간 정리

트랜스포머는 AI 발전의 중요한 기반이지만 한계도 분명합니다. 그래서 MoE, Mamba, SSM, Jamba 같은 접근이 계속 나오는 것 같습니다. 핵심은 더 긴 문맥을 더 적은 비용으로 처리하는 것입니다.

앞으로 더 봐야 할 방향

앞으로 AI 연구는 계산 효율성, 메모리 사용량, 긴 문맥 처리, 하이브리드 구조 쪽으로 계속 갈 것 같습니다. 모델이 커지는 것만으로는 비용 문제가 너무 커지기 때문입니다.

새로운 아키텍처의 등장

SSM (State Space Model)

SSM은 트랜스포머의 대안으로 주목받고 있는 새로운 아키텍처입니다. 이 모델은 시스템의 상태를 연속적으로 업데이트하면서 입력을 처리하는 방식으로 작동하며, 다음과 같은 수학적 구조를 가집니다:

SSM은 선형 시간 복잡도를 가지고 있어 긴 시퀀스를 효율적으로 처리할 수 있으며, 메모리 사용량도 트랜스포머에 비해 크게 개선되었습니다. 특히 긴 시퀀스 처리가 필요한 태스크에서 뛰어난 성능을 보여줍니다.

Mamba 아키텍처의 혁신

Mamba는 SSM을 기반으로 하되, 선택적 상태 업데이트 메커니즘을 도입한 혁신적인 모델입니다. 그 수학적 구조는 다음과 같습니다:

이 모델은 선택적 상태 업데이트를 통해 계산 효율성을 높이고, 하드웨어 최적화를 통해 성능을 개선했으며, 특히 긴 컨텍스트를 처리하는 데 탁월한 능력을 보여줍니다.

Jamba: 하이브리드 접근의 미래

Jamba는 트랜스포머와 Mamba의 장점을 결합한 하이브리드 모델입니다. 이 모델은 다음과 같은 수식으로 표현되는 혼합 구조를 가집니다:

이 모델은 120B의 활성 파라미터를 가지고 있으며, 향상된 처리량과 긴 시퀀스 처리 능력을 제공합니다. 트랜스포머의 강력한 병렬 처리 능력과 Mamba의 효율적인 시퀀스 처리 능력을 모두 활용할 수 있다는 것이 큰 장점입니다.

미래 전망

실시간 처리 최적화

마이크로소프트의 디코더 기반 트랜스포머는 실시간 처리에 최적화되어 있으며, 다음과 같은 지연 시간 공식을 따릅니다:

이를 통해 실시간 응용 프로그램에서도 효과적인 성능을 발휘할 수 있습니다.

멀티모달 통합의 진화

AI 시스템은 점차 다양한 형태의 입력을 통합적으로 처리하는 방향으로 발전하고 있습니다. 이는 다음과 같은 포괄적인 이해 모델로 표현됩니다:

이러한 통합적 접근은 AI 시스템이 인간의 인지 과정을 더 잘 모방할 수 있게 해줍니다.

계산 효율성의 혁신

새로운 아키텍처들은 각각 다른 계산 복잡도를 가지고 있습니다:

  • 트랜스포머는 O(n²)의 복잡도로 인해 긴 시퀀스 처리에 제약이 있습니다.
  • SSM과 Mamba는 O(n)의 선형 복잡도로 더 효율적인 처리가 가능합니다.
  • Jamba는 O(n·log(n))의 복잡도로 효율성과 성능의 균형을 추구합니다.

마무리

LLM을 쓰다 보면 "이렇게 똑똑한데 왜 이런 걸 틀리지?"라는 생각이 자주 듭니다. 그런데 구조를 조금 들여다보면, 이 모델들이 사람처럼 세고 계산하는 방식이 아니라는 걸 알 수 있습니다.

그래서 앞으로의 모델은 단순히 더 커지는 방향만으로는 부족할 것 같습니다. 더 긴 문맥을 다루고, 더 적은 자원으로 돌아가고, 필요할 때는 도구나 외부 시스템과 연결되는 방향이 중요해질 것입니다.

저도 AI를 계속 쓰고 만들면서, 모델의 장점뿐 아니라 이런 한계까지 같이 이해하는 게 중요하다고 느낍니다. 그래야 AI를 과대평가하지도 않고, 반대로 쓸모없는 기술처럼 무시하지도 않을 수 있습니다.

참고 문헌

  1. Vaswani, A., et al. (2017). "Attention Is All You Need". arXiv preprint arXiv:1706.03762.
  2. 안될공학. (2023). "트랜스포머를 넘어 MoE와 SSM까지, 미래 AI의 방향은?...". YouTube
  3. Gu, A., et al. (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". arXiv preprint arXiv:2312.00752.
  4. Wei, J., et al. (2022). "Chain of Thought Prompting Elicits Reasoning in Large Language Models". arXiv preprint arXiv:2201.11903.
  5. Brown, T., et al. (2020). "Language Models are Few-Shot Learners". arXiv preprint arXiv:2005.14165.