TIL

LLM의 원리를 처음부터 다시 이해하기 (26년06월01일)

yeol0827 2026. 6. 1. 20:57

CLAUD AI

 

AI를 매일 쓰면서도 막상 "LLM이 뭐야?"라고 물으면 말문이 막히는 경우가 꽤 있었다. GPT마케팅  책을 읽고나서

 ChatGPT를 쓰고, 프롬프트를 짜고, 자동화 파이프라인을 구성하면서도 정작 내부에서 어떤 일이 일어나는지는 흐릿하게 알고 지나치는 것이다. 이번 글에서는 LLM의 작동 원리부터 추론 과정, 멀티모달과 컨텍스트 윈도우까지  AI를 실전에서 잘 쓰기 위해 알아야 할 개념 네 가지를 한 번에 정리해봤다.

 

 LLM이란 무엇인가

LLM(Large Language Model, 대규모 언어 모델)은 인터넷, 책, 대화 기록 등 방대한 텍스트 데이터를 학습해 자연어를 이해하고 생성하는 AI 모델이다. 쉽게 말하면, 엄청난 양의 글을 읽으면서 언어의 패턴과 문맥, 문법을 스스로 파악한 시스템이다.

핵심은 학습 데이터의 양이 곧 성능과 직결된다는 점이다. GPT, Claude, Gemini 같은 모델들이 각기 다른 강점을 갖는 이유도 결국 어떤 데이터를 얼마나 학습했는지에서 출발한다.

 

LLM은 단순히 "많이 아는 AI"가 아니다. 언어의 구조와 흐름을 패턴으로 학습한 모델이기 때문에,

처음 보는 문장도 맥락을 파악해 적절한 응답을 만들어낼 수 있다.

 

어떻게 학습하나? 

사전학습과 미세조정

LLM의 학습은 크게 두 단계로 나뉜다. 먼저 사전 학습(Pre-training): 대규모 텍스트 데이터를 통해 언어 구조 자체를 익히는 단계다. 문법, 어휘, 문맥의 흐름을 이 단계에서 내재화한다.

그다음이 미세조정(Fine-tuning)이다. 고객 상담, 법률 분석, 의료 문서 요약처럼 특정 목적에 맞게 모델을 추가로 조정하는 과정이

다. 기업들이 범용 LLM을 그대로 쓰지 않고 자체 데이터로 파인튜닝하는 이유가 여기 있다.

 

토큰이란?  LLM이 텍스트를 처리하는 단위

LLM은 텍스트를 통째로 읽지 않는다. 토큰(Token)이라는 단위로 잘게 쪼갠 뒤 처리한다. 토큰은 단어가 될 수도 있고, 단어의 일부가 될 수도 있다. "불가능하다"가 "불가", "능하", "다"처럼 나뉘는 식이다.

각 토큰은 고유한 숫자 벡터로 변환되고, 모델은 이 벡터들 사이의 관계를 계산해 문맥을 이해한다. 프롬프트 비용이 토큰 수 기준으로 책정되는 것도 이 구조 때문이다.

 

LLM의 장점과 한계 ? 

장점부터 보면, 다양한 언어와 작업에 범용적으로 활용할 수 있고, 특정 사용 사례에 맞게 미세조정도 가능하다는 점이 크다. 번역, 요약, 코드 생성, 분석 — 하나의 모델로 이 모든 걸 처리할 수 있다는 건 이전 AI와는 차원이 다른 얘기다.

 

다만 한계도 명확하다. 가장 주의해야 할 건 허위 정보 생성(Hallucination)이다. 그럴싸하게 보이는 잘못된 정보를 생성하는 경향이 있고, 모델이 왜 그 결론에 도달했는지 인간이 해석하기 어려운 경우도 많다. AI를 쓸 때 결과물을 무비판적으로 받아들이면 안 되는 이유다.

 

LLM 추론이란 ? 단순 검색과 다른 점

LLM이 단순 검색 엔진과 다른 핵심 이유가 바로 추론(Inference) 능력이다. 추론이란 입력된 정보를 바탕으로 논리적 결론을 도출하거나 적절한 응답을 생성하는 과정이다.

검색 엔진은 키워드에 맞는 문서를 찾아주지만, LLM은 주어진 문맥을 이해하고 그 맥락 안에서 판단을 내린다. 이게 대화가 자연스럽게 이어지고, 복잡한 분석이나 요약이 가능한 이유다.

 

추론이 작동하는 방식  

사용자가 입력한 텍스트는 토큰으로 분해되고, 각 토큰은 숫자 벡터로 변환된다. 그 다음 트랜스포머 아키텍처(Transformer)의 핵심인 어텐션 메커니즘(Attention Mechanism)이 작동한다. 이 메커니즘은 입력된 토큰들 사이의 관계를 파악해 어떤 단어가 어떤 단어와 연결되는지를 계산한다.

"사과를 먹었다"와 "주식 사과를 했다"에서 '사과'의 의미가 달라지는 것처럼, 어텐션은 같은 단어도 주변 문맥에 따라 다르게 해석하게 해준다. 이게 LLM이 문맥을 유지하며 대화할 수 있는 기반이다.

 

추론의 3가지 유형

귀납적 추론은 구체적인 사례에서 일반적인 결론을 끌어낸다. "A도 그랬고 B도 그랬으니 C도 그럴 것이다"의 흐름이다. 연역적 추론은 반대로 일반적인 사실에서 특정 결론을 도출한다. 유추적 추론은 비슷한 사례를 기반으로 결론을 내리는 방식이다.

LLM은 이 세 가지를 상황에 따라 혼합해 사용한다. 그래서 동일한 질문이라도 어떻게 프롬프트를 구성하느냐에 따라 어떤 추론 경로를 거치는지가 달라진다. 프롬프트 설계가 단순한 말투의 문제가 아닌 이유가 여기 있다.

 

추론의 주요 고려 사항: 문맥 유지, 학습 데이터의 한계, 확률 기반 작동. LLM은 정답을 아는 게 아니라 '가장 그럴듯한 다음 토큰'을 생성하는 구조다. 이 점을 이해하면 AI 결과물을 다루는 방식이 달라진다.

 멀티모달 AI — 보고, 듣고, 읽는 AI

멀티모달(Multimodal)이란 AI 모델이 텍스트뿐 아니라 이미지, 음성, 영상 등 여러 형태의 데이터를 동시에 처리할 수 있는 능력을 의미한다. 기존 언어 모델이 텍스트만 입력받았다면, 멀티모달 모델은 다양한 입력 채널을 결합해 더 풍부한 맥락을 이해한다.

GPT-4o가 화면 캡처를 분석하고, Gemini가 영상을 요약하고, Claude가 PDF 문서와 텍스트를 함께 처리하는 것 — 전부 멀티모달 능력이 있어서 가능한 일이다.

 

멀티모달이 실무에서 만드는 차이

마케터 입장에서 생각해보면 명확하다. 경쟁사 랜딩페이지 스크린샷을 AI에게 던지면 구조와 카피 방향을 즉시 분석해주고, 광고 소재 이미지와 텍스트를 함께 넣으면 시각적 메시지와 카피의 정합성을 검토해준다.

자동화 파이프라인에서도 마찬가지다. 영수증 이미지를 읽어 회계 시스템에 자동 입력하거나, 제품 사진을 분석해 카테고리를 자동 분류하는 것 — 기존에 사람이 처리해야 했던 비정형 데이터를 AI가 직접 다루게 해준다.

 

텍스트로 설명하기 어려운 시각적 정보를 직접 입력할 수 있고, 복합적인 데이터 유형을 하나의 API 호출로 처리할 수 있다. 프롬프트 설계에서 "어떤 정보를 텍스트로 줄 것인가, 어떤 정보를 이미지로 줄 것인가"를 설계하는 능력이 결과물의 품질을 가른다.

AI가 기억하는 범위

컨텍스트 윈도우(Context Window)는 AI 모델이 한 번에 처리하고 기억할 수 있는 텍스트의 최대 길이를 말한다. 정확히는 모델이 응답을 생성할 때 참고할 수 있는 토큰의 최대 범위다.

직관적으로 비유하면, 컨텍스트 윈도우는 모델의 "단기 기억"과 같다. 이 범위 안에 있는 내용은 기억하지만, 범위를 벗어나면 잊어버린다. 긴 대화를 나누다 보면 초반 내용을 모델이 모르는 것처럼 행동하는 경우가 생기는 이유가 바로 이 때문이다.

왜 컨텍스트 윈도우 크기가 중요한가

컨텍스트 윈도우가 클수록 더 긴 문서를 한 번에 처리할 수 있다. 긴 논문이나 계약서를 한 번에 요약하거나, 수십 페이지짜리 보고서에서 특정 정보를 찾아내는 것 — 이런 작업에서 컨텍스트 윈도우의 크기가 곧 처리 가능한 작업의 범위를 결정한다.

자동화 파이프라인에서는 더 중요해진다. 여러 단계에 걸쳐 정보를 전달하고 분석하는 워크플로우에서, 컨텍스트 윈도우가 작으면 앞 단계 정보를 다음 단계로 넘기지 못해 흐름이 끊긴다.

실무에서 컨텍스트 윈도우를 다루는 방법

컨텍스트 윈도우를 의식하면 프롬프트 설계가 달라진다. 긴 문서를 처리할 때 필요한 부분만 잘라서 넣는 방식(청킹), 대화 히스토리를 요약해서 압축하는 방식, 중요한 정보를 항상 프롬프트 앞쪽에 배치하는 방식 — 모두 컨텍스트 윈도우의 특성을 이해해야 적용할 수 있는 기법이다.

 

컨텍스트 윈도우는 유한한 자원이다. 무분별하게 많은 정보를 넣으면 오히려 중요한 내용이 희석된다. 핵심 정보를 압축해 잘 배치하는 것이 긴 컨텍스트보다 더 나은 결과를 만들어낼 때도 많다.