본문 바로가기
인공지능

LLM의 기본 원리: ‘다음에 올 단어(토큰) 예측’은 어떻게 작동할까?

by 메타위버 2026. 2. 6.
반응형

LLM의 기본 원리: ‘다음에 올 단어(토큰) 예측’은 어떻게 작동할까?

핵심 한 문장
대규모 언어 모델(LLM)은 “입력된 문맥을 보고 다음에 올 토큰(token)의 확률분포를 계산한 뒤, 그 분포에서 토큰을 선택해 문장을 이어 쓰는” 거대한 수학적 함수입니다.
 
LLM의 기본 원리

 

I. LLM은 ‘다음 토큰 확률분포’를 출력하는 함수

많은 사람들이 LLM을 “다음 단어를 맞히는 AI”로 이해합니다. 방향은 맞지만, 더 정확히 말하면 LLM은 다음 ‘단어(word)’가 아니라 다음 ‘토큰(token)’을 예측합니다.

1. 토큰(token)이란?

토큰은 문장을 쪼갠 단위입니다. 어떤 때는 단어 전체가 토큰이 되기도 하고, 어떤 때는 접두/접미 같은 조각이 토큰이 되기도 합니다. 공백이나 기호도 토큰이 될 수 있습니다.

 
왜 토큰을 쓰나?
단어 기준으로만 나누면 “신조어/외래어/고유명사” 처리가 어렵습니다. 토큰은 조각 단위라서 희귀 단어도 조합으로 표현하기 쉬워져요.

2. 확률분포(probability distribution)

LLM은 “정답 단어 하나”를 확정하는 대신, 다음에 올 수 있는 후보 토큰 각각에 대해 확률을 부여합니다. 즉, 출력은 “한 단어”가 아니라 확률분포입니다.

입력: "오늘 날씨가 정말"
출력(예시):
  "좋"  : 0.42
  "나"  : 0.18
  "추"  : 0.09
  ...
 
정리
LLM = 입력 문맥 → 다음 토큰들의 점수(로그릿) → softmax → 확률분포
 

II. 왜 낮은 확률 단어도 가끔 등장할까? (샘플링)

“모델이 가끔 확률이 낮은 단어를 섞는다”는 말은 상당히 중요합니다. 이것은 모델이 무작정 랜덤하게 굴어서가 아니라, 생성(디코딩) 단계에서 어떤 규칙으로 토큰을 선택하느냐에 달려 있습니다.

1. Temperature(온도)

  • 온도 ↑: 분포가 평평해져서 다양한 후보가 더 자주 선택됨 (더 다채롭고 창의적)
  • 온도 ↓: 분포가 뾰족해져서 상위 후보 위주 (더 안정적이고 일관)

2. Top-k / Top-p(Nucleus)

  • Top-k: 확률이 높은 상위 k개 후보만 남기고 그 안에서 선택
  • Top-p: 누적확률 p에 들어오는 후보 집합만 남기고 그 안에서 선택
주의
샘플링을 너무 과격하게 하면 “헛소리”가 늘 수 있고, 너무 보수적으로 하면 “반복/진부함”이 늘 수 있습니다.
 

III. 문장은 어떻게 완성될까? (오토리그레시브 생성)

LLM의 문장 생성은 매우 단순한 반복입니다. 다만 이 반복을 엄청나게 빠르게 수행하고, 문맥을 잘 보도록 훈련되었을 뿐입니다.

1. 생성 과정(반복 루프)

  1. 입력 문맥을 넣고 다음 토큰 확률분포를 계산
  2. 샘플링 규칙(temperature/top-p 등)에 따라 다음 토큰 1개 선택
  3. 선택된 토큰을 문장 뒤에 붙임
  4. 종료 토큰(EOS) 또는 길이 제한에 도달할 때까지 반복
프롬프트: "LLM은"
1) 다음 토큰 예측 → "다"
2) "LLM은 다"를 다시 입력 → "음"
3) "LLM은 다음" → " "
4) "LLM은 다음 " → "토"
... 이런 식으로 이어 붙여 문장이 완성됩니다.

 

IV. 거대한 데이터와 파라미터: “다이얼”의 정체

LLM이 강력해진 가장 큰 이유는 규모(scale)입니다. 더 많은 텍스트로, 더 큰 모델(더 많은 파라미터)을, 더 오랫동안 학습시킨 결과 “언어 패턴”을 매우 정교하게 담아낼 수 있게 됐습니다.

1. 파라미터(매개변수)란?

파라미터는 모델 내부의 수많은 숫자(가중치)입니다. 비유하면 수백억~수천억 개의 미세 조정 다이얼이 있고, 훈련은 이 다이얼을 조금씩 돌려 “다음 토큰을 더 잘 맞히게” 만드는 과정입니다.

 
포인트
파라미터 자체가 “지식의 문장”을 저장하는 게 아니라, 입력이 들어왔을 때 어떤 출력 분포를 만들지 결정하는 “규칙의 압축”이라고 생각하면 이해가 쉽습니다.

2. 학습 데이터(텍스트)는 왜 중요할까?

LLM은 예시를 통해 언어를 배웁니다. 즉, 인터넷/책/문서/코드 등 다양한 텍스트에서 문장 구조, 표현 습관, 지식 조각, 추론 패턴을 통계적으로 흡수합니다.

 
주의
“많이 읽었다 = 항상 정확하다”는 뜻은 아닙니다. 데이터에 없거나, 데이터가 틀렸거나, 문맥이 부족하면 모델도 틀릴 수 있어요.
 

V. 모델 훈련 과정: Pre-training → (SFT/RLHF) 정렬

LLM 개발을 크게 나누면 보통 사전훈련(Pre-training)정렬(Alignment: SFT/RLHF 등)로 볼 수 있습니다.

1. 사전훈련(Pre-training): 다음 토큰 맞히기

텍스트에서 일부를 가리고 다음 토큰을 맞히게 합니다. 맞히면 보상, 틀리면 벌점(손실)이 생기고, 역전파(Backpropagation)로 가중치가 미세 조정됩니다.

입력: "나는 오늘 커피를"
정답: "마셨다"
→ 모델이 "마셨다" 확률을 높이도록 파라미터를 조금 조정

2. 지도 미세조정(SFT)

“도움 되는 답변”의 예시를 많이 보여주고 그대로 따라 하게 만드는 단계입니다. 질문-답변 형식, 친절한 문장, 특정 작업 수행 방식 등이 이때 강화됩니다.

3. RLHF: 인간 피드백 기반 강화학습

같은 질문에 대한 여러 답변을 놓고 사람이 선호도를 평가하면, 모델은 “더 선호되는 답변”을 내도록 학습합니다. 결과적으로 안전성/유용성/협조성이 개선되는 방향으로 다듬어집니다.

 

VI. 핵심 기술: 트랜스포머(Transformer)와 어텐션

트랜스포머는 LLM의 폭발적 성장을 만든 구조입니다. 핵심은 어텐션(Attention)입니다. “문장 안에서 무엇을 참고할지”를 학습으로 결정해, 문맥 이해를 훨씬 정교하게 만듭니다.

1. 임베딩(Embedding): 단어를 숫자 벡터로

모델은 문자를 그대로 이해하지 못합니다. 그래서 토큰을 의미/용법이 담긴 숫자 벡터로 바꿔 처리합니다. 이 벡터 공간에서 “유사한 의미”는 가까운 위치에 놓이게 됩니다.

2. 어텐션(Attention): 문장 속 단어들이 서로 참고

예를 들어 “눈”이라는 단어는 문맥에 따라 의미가 달라집니다.

  • “눈이 내린다” → 기상 현상
  • “눈으로 본다” → 신체 부위
포인트
어텐션은 “사전”이 아니라, 문맥에서 중요한 단어를 찾아 가중치를 주는 방식으로 의미를 분리합니다.

3. 피드포워드(Feed-forward): 패턴과 지식을 담는 큰 용량

트랜스포머는 어텐션으로 문맥을 섞고, 피드포워드 네트워크로 비선형 변환을 크게 수행하면서 다양한 언어 패턴을 저장하고 전달합니다. “모델이 커질수록” 성능이 좋아지는 이유 중 하나가 여기에 있습니다.

 

VII. 결론: “다음 토큰 예측”이 전부인데, 왜 똑똑해 보일까?

LLM의 엔진은 단순합니다. 하지만 규모(데이터+파라미터)트랜스포머의 문맥 처리(어텐션), 그리고 정렬(SFT/RLHF)이 결합되면 요약, 번역, 코드 작성, 논리 전개처럼 보이는 능력이 “구성적으로” 나타납니다.

 
중요한 한계
LLM은 그럴듯한 문장을 생성할 수 있지만, 항상 사실을 보장하지는 않습니다. 특히 최신 정보나 정확한 수치/인용은 별도 검증이 필요합니다. 그래서 실무에서는 “LLM을 글쓰기 엔진 + 초안 생성기”로 활용하되, 근거 확인(출처, 데이터, 링크)과 검증 프로세스를 함께 설계하는 것이 가장 현실적인 접근입니다.

VIII. FAQ

Q1. LLM은 ‘이해’하는 건가요, ‘암기’하는 건가요?

둘 중 하나로만 말하기는 어렵습니다. LLM은 “문장을 다음 토큰 예측 문제로 학습”하면서, 결과적으로 언어 패턴과 지식의 단서를 내부 파라미터에 압축해 담습니다. 다만 인간처럼 ‘의식적 이해’를 한다고 단정하긴 어렵고, 입력-출력 관계를 학습한 거대한 함수로 보는 것이 가장 안전합니다.

 

Q2. 왜 가끔 틀린 말을 확신 있게 하나요?

모델 목표가 “사실 확인”이 아니라 “그럴듯한 다음 토큰”을 생성하는 데 있기 때문입니다. 문맥이 부족하거나 데이터에 근거가 약하면, 확률적으로 자연스러운 문장을 이어붙이며 잘못된 내용을 만들 수 있습니다(환각/헛소리 현상).

 

Q3. 토큰은 왜 꼭 필요하죠?

토큰화는 희귀어/신조어/고유명사를 더 유연하게 처리하게 해주고, 모델이 다양한 언어와 문자를 다루기 쉽게 만들어줍니다.

 

Q4. 트랜스포머가 왜 그렇게 중요한가요?

어텐션으로 문맥을 멀리까지 참고할 수 있고(장거리 의존성), 학습 효율(병렬 처리)도 좋아서 “더 큰 모델을 더 빠르게” 학습시키는 길을 열었습니다. 오늘날 대부분의 LLM은 트랜스포머 계열을 기반으로 합니다.

 

 

 

백엔드 개발자의 시선으로 풀어본 LLM 내부 동작 원리: 6단계로 쉽게 이해하기 | 카카오페이 기술

LLM 내부 동작 과정을 설명합니다.

tech.kakaopay.com

 

IX. 요약(복붙용)

LLM은 입력 문맥을 바탕으로 다음 토큰의 확률분포를 계산하는 거대한 수학적 함수이며, 샘플링 규칙(temperature/top-p 등)으로 토큰을 선택해 문장을 순차적으로 완성한다. 성능은 방대한 데이터와 수많은 파라미터, 그리고 트랜스포머의 어텐션 구조에 의해 강화되며, 사전훈련 이후 SFT/RLHF 같은 정렬 과정으로 더 안전하고 유용한 대화형 모델로 다듬어진다.

 

면책 고지: 본 글은 LLM의 일반 원리를 이해하기 위한 교육용 설명입니다. 특정 모델의 세부 구현, 데이터 구성, 최신 수치/정책은 버전과 공개 범위에 따라 달라질 수 있습니다.

 

반응형