AI는 언어를 어떻게 배웠을까? 토큰과 파라미터의 비밀
요즘은 유튜브 레시피만 보면 누구나 손쉽게 요리를 할 수 있는 시대가 됐죠. 인기 레시피의 공통점은 '밀가루 한 줌'이 아니라 '종이컵으로 한 컵' 또는 '200그램'처럼 정확한 정량을 알려준다는 겁니다. 아무리 훌륭한 재료라도 단위를 모르면 아무 소용이 없는 것처럼, AI가 인간의 지식을 담는 단위를 어떻게 쪼개느냐, 그리고 그 그릇의 크기를 어떻게 결정하느냐는 매우 중요한 문제입니다. 이것이 바로 토큰과 파라미터에 관한 이야기입니다.
▸ AI가 우리 말을 씹어삼키는 단위 : 토큰이란 무엇인가
AI 성능을 이야기할 때면 '2백만 토큰의 컨텍스트 윈도우 덕분에 2000권 분량의 데이터를 한 번에 이해할 수 있다'는 말을 자주 접하게 됩니다. 그런데 막상 이게 무슨 뜻인지 정확히 이해하는 분은 많지 않습니다. '12개의 압력 노즐이 내부 압착 시스템을 통해 더 좋은 밥맛을 제공한다'는 전기밥솥 광고처럼 '무슨 의미인지는 모르지만 최신 기술이 들어간 밥솥인가 보다' 하면서 그냥 넘어갈 수도 있지만, AI 시대에는 토큰의 개념을 이해하지 못하면 새로운 AI 작동 원리를 이해하는 데 걸림돌이 될 수 있습니다.
컴퓨터가 인간의 언어를 다루려면 먼저 '텍스트를 숫자로 어떻게 바꿀 것인가'를 해결해야 합니다. 컴퓨터는 0과 1밖에 모르니까요. 기계에게 '안녕하세요'를 이해시키려면, 먼저 의미 있는 조각으로 쪼개고 각 조각에 고유한 번호를 붙여야 합니다. 이 조각 하나하나를 토큰이라고 부릅니다. 지하철 입장권이나 동전처럼 특정 목적으로 통용되는 교환 단위가 원래 토큰의 뜻인데, AI에서의 토큰도 정확히 그런 의미로 쓰입니다.
오늘날 대부분의 AI는 BPEByte Pair Encoding라는 알고리즘으로 텍스트를 쪼개 토큰으로 만듭니다. 자주 쓰이는 단어나 조합은 통째로 하나의 토큰이 되고, 드물게 쓰이는 단어는 여러 조각으로 나뉩니다. 예를 들어 영어에서 'Hello'는 하나의 토큰이지만, 생소한 단어인 'Tokenization'은 'Token'과 'ization'으로 쪼개집니다. 아예 낯선 단어라면 알파벳 한 글자씩, 혹은 바이트 단위까지 분해될 수 있습니다.
각 언어별로 토큰 사용량의 차이가 있고, 대부분 영어가 가장 효율적입니다.
토큰의 경제학도 중요합니다. AI에게 10개의 토큰을 처리하게 하는 것과 20개를 처리하게 하는 것은 단순히 2배의 차이가 아니라, 전력 소비도 2배로 늘어납니다. 영어는 평균적으로 단어 하나에 1~1.3개의 토큰으로 변환되지만, 한국어나 일본어, 중국어는 영어로 학습된 AI에서 훨씬 더 많은 토큰을 씁니다. 그래서 우리말에 최적화된 독자적인 AI 모델, 이른바 K-파운데이션Foundation Model AI가 필요한 이유도 결국 '적은 토큰으로 한국어를 정확히 이해하는 AI'를 만들기 위해서라고 볼 수 있습니다.
▸ AI의 단기 기억력을 결정하는 것 : 컨텍스트 윈도우
토큰의 개념을 이해했다면 '컨텍스트 윈도우'도 자연스럽게 이해할 수 있습니다. AI가 한 번에 처리할 수 있는 토큰의 최대 개수를 말하는데, 인간도 방금 나눈 대화는 기억하지만 한 시간 전 대화의 세부 내용은 잊어버리는 것처럼, AI도 컨텍스트 윈도우 안의 내용만 '지금 이 대화의 맥락'으로 인식합니다.
2019년에 등장한 GPT-2는 컨텍스트 윈도우가 고작 1,024 토큰이었습니다. A4지 한두 페이지 분량을 처리하면 한계에 달했죠. 그런데 2026년 현재는 1,000만 토큰을 넘는 컨텍스트 윈도우도 제공되고 있습니다. 법률 계약서 전체를 한 번에 검토하거나, 수백 페이지짜리 논문을 분석하거나, 장편 소설의 플롯 일관성을 점검하는 일도 가능해진 거죠.
인간의 뇌 구조를 본떠 만들어진 신경망을 근간으로 AI가 만들어졌기 때문에, 인간도 한참 대화를 하면서도 모든 것을 기억하지 못하는 것과 비슷합니다. 인간에게 망각이라는 것이 있는 것처럼, 컨텍스트 윈도우가 꽉 차면 비워내는 거예요. 챗GPT와 대화를 이어가다 AI가 앞서 나눈 이야기를 기억하지 못하거나 더 이상 처리하지 못하는 경우가 생긴다면, 바로 이 컨텍스트 윈도우의 한계 때문입니다.
▸ AI의 기억을 담는 그릇 : 파라미터란 무엇인가
토큰이 AI가 텍스트를 처리하는 '단위'라면, 파라미터는 AI가 학습한 지식을 저장하는 '그릇'입니다. 수학적으로는 신경망 내부의 연결에 할당된 가중치 값들의 집합이라고 할 수 있는데, 조금 더 쉽게 생각해봅시다.
머릿속에 수십억 개의 단어가 있다고 상상해보세요. 각 단어를 연결하는 뉴런들이 있고, 그 뉴런마다 두 단어가 얼마나 강하게 연관되어 있는지를 나타내는 숫자가 적혀 있습니다. 이 숫자들이 바로 파라미터입니다. AI는 수조 개의 텍스트를 학습하면서 이 숫자들을 끊임없이 조정하죠. '고양이'와 '털', '야옹'이 자주 함께 등장하면 이들을 연결하는 숫자가 강해지고, '고양이'와 '수력 발전'의 연결은 약해집니다. 그렇게 학습이 끝난 뒤, 그 결과물이자 기억의 총합이 파라미터 안에 압축되는 겁니다.
아주 정밀한 오디오를 상상해보세요. 출력되는 소리를 조절하는 나사가 10개뿐인 오디오와, 1,750억 개의 나사가 달린 오디오 중 어느 쪽이 소리가 더 깨끗할까요? 당연히 나사가 많을수록 잡음을 걸러내고, 아주 미세한 소리까지 잡을 수 있겠죠. AI에게 파라미터가 많다는 것은, 그만큼 세상을 아주 정밀하고 입체적으로 표현할 수 있는 조절 나사를 많이 가졌다는 뜻이에요.
GPT의 역사를 보면 파라미터 수가 얼마나 폭발적으로 늘어났는지 실감할 수 있습니다. 2018년 GPT-1의 먼 조상은 1억 1,700만 개의 파라미터를 가졌고, 2019년 GPT-2는 15억 개, 2020년 GPT-3는 1,750억 개에 달했습니다. 파라미터가 많을수록 더 많은 정보를 저장하고 단어 간 상관관계를 더 정밀하게 분석할 수 있습니다. 처음에는 '파라미터를 늘릴수록 AI가 똑똑해진다'는 것이 정설처럼 받아들여졌죠.
▸ 파라미터가 많으면 무조건 좋은가 : 규모의 한계
그렇다면 파라미터 수를 계속 늘리면 AI는 계속 똑똑해질까요? 안타깝게도 그렇게 단순한 문제가 아닙니다. 파라미터가 늘어날수록 학습과 추론에 필요한 컴퓨팅 비용도 함께 커집니다. 당장 결정을 내려야 하는 상황에서, 아는 게 너무 많아 고민이 길어진 나머지 시간 안에 답을 내지 못하는 경우와 비슷하죠. 그래서 이제는 '얼마나 큰 모델을 만들 수 있느냐'보다 '얼마나 효율적인 모델을 만들 수 있느냐'가 더 중요한 경쟁이 되고 있습니다.
이런 고민에서 나온 것이 바로 전문가 혼합Mixture of Experts, MoE 구조입니다. 신경망 안에 여러 '전문가 모듈'을 두고, 입력에 따라 필요한 전문가만 활성화하는 방식이죠. 예를 들어 중국의 저비용 고효율 AI로 알려진 딥시크는 총 6,710억 개의 파라미터를 가지고 있지만, 실제로 각 토큰을 처리할 때는 370억 개만 활성화됩니다. 종합병원에 수십 명의 전문의가 있지만 여러분을 치료할 때는 담당 전문의 한두 명만 투입되는 것과 같은 원리입니다.
아무리 넓고 큰 그릇(파라미터)이 있어도 좋은 재료(데이터)를 정확한 레시피와 단위(토큰)로 손질해서 담지 않으면 맛있는 요리가 될 수 없습니다. 좋은 AI를 만드는 출발점은 결국 좋은 데이터입니다.
