제미나이 3의 모든 것
제미나이 3 이해하기
구글은 차세대 AI 모델 제미나이 3을 공개했습니다. 제미나이 3은 MoE 기반의 트랜스포머 아키텍처를 사용합니다. 멀티모달 AI 시스템이며, 업계 최대 규모의 콘텍스트 윈도우를 가집니다. 강력한 추론 능력을 위해 CoT 기법을 사용합니다. 이해가 잘 안되나요? 괜찮습니다. 지금부터 최대한 쉬운 방법으로 설명하겠습니다. 어려워도 어느 정도만 감을 잡으면 AI 세계를 더 뚜렷이 이해할 수 있습니다. 어려운 용어를 하나씩 풀어보겠습니다.
인공지능, LLM, 모델이란?
비슷하지만 다른 의미로 사용하는 세 용어가 있습니다. 인공지능Artificial Intelligence, AI은 인간의 지능을 컴퓨터로 구현한 기술을 통칭합니다. 음성 인식, 이미지 분류, 자율 주행 등 넓은 분야를 포괄하는 개념입니다. 우리가 흔히 아는 챗봇은 LLMLarge Language Model의 한 종류입니다. 대규모 언어 모델을 뜻합니다. 방대한 텍스트 데이터를 학습해서 사람처럼 자연스러운 언어를 이해하고 생성하는 AI입니다. 제미나이, GPT, 클로드 같은 것들이 있습니다. 모델Model은 AI가 학습을 통해 얻은 지식과 패턴을 담은 결과물입니다. 마치 학생이 공부해서 얻은 실력과 같습니다. 데이터를 학습한 뒤 새로운 입력에 대해 예측이나 생성을 수행합니다. 제미나이 3 프로, GPT-5.2, 클로드 소넷 4.5처럼 구체적인 이름이 붙은 것들이 각각의 모델입니다. 같은 회사에서도 크기와 성능에 따라 여러 모델을 출시합니다.
CoT란?
CoTChain of Thought 기법은 복잡한 문제를 단계별로 분해하여 해결하는 방식을 말합니다. 수학 문제나 알고리즘 설계와 같이 논리적 사고가 필요한 작업에서 이 방식이 활용됩니다. 모델은 중간 추론 단계를 명시적으로 생성함으로써 최종 답안의 정확도를 높입니다. 현대 AI를 사용하면 AI가 생각을 하며 논리적인 흐름을 출력해 나가는 걸 본 적이 있을 겁니다. 이게 바로 CoT 기법입니다. LLM 초기에는 프롬프트 엔지니어링으로 구현했지만, 지금은 많은 모델이 CoT를 기본 기능으로 탑재합니다.
멀티모달이란?
멀티모달은 멀티-모달리티Multi-Modality의 합성어입니다. 다양한 형태의 정보라는 뜻입니다. 제미나이 3는 텍스트, 이미지, 비디오, 오디오 등 다양한 형태의 데이터를 동시에 처리할 수 있습니다. 이렇게 글도 읽고, 사진도 볼 수 있는 모델을 멀티모달 모델이라고 부릅니다. 멀티모달 접근은 단일 모달 모델보다 자연스러운 AI 상호작용을 가능하게 합니다. 제미나이 3은 텍스트 프롬프트와 함께 제공된 이미지나 비디오 정보를 동시에 고려합니다. 단순히 이미지도 처리할 줄 알고, 텍스트도 처리할 줄 알고, 동영상도 처리할 줄 안다는 뜻이 아닙니다.
텍스트, 이미지, 오디오, 비디오 등 서로 다른 종류의 데이터를 각각 전용 인코더Encoder로 처리합니다. 인코더는 원본 데이터를 AI가 이해할 수 있는 숫자 형태로 바꾸는 장치입니다. 인코더로 변환한 데이터는 모두 같은 형식으로 통일합니다. 마치 한국어, 일본어, 중국어를 모두 영어로 번역해서 소통하는 것과 비슷합니다. 이 통일된 공간을 통합된 토큰 공간Shared token space이라고 부릅니다. 이 과정에서 서로 다른 데이터라도 같은 형식으로 이해할 수 있게 됩니다. 그래서 이미지를 입력받아도 텍스트로 풀어 설명하는 등 모달리티를 넘나드는 추론이 가능합니다.
MoE란?
MoE는 원래 여러 전문가Expert를 두고 조합해서 쓰는 방식을 말합니다. MoE 방식 중 상황에 적절한 전문가만 선택하는 방식을 Sparse MoE라고 부릅니다. 일반적으로 MoE라고 이야기하면 Sparse MoE를 뜻합니다. 모든 것을 다 아는 하나의 천재에게 일을 맡기는 대신, 각 분야의 전문가로 구성된 팀을 만듭니다. 상황에 따라 가장 적합한 전문가 몇 명에게만 일을 시켜 성능을 올립니다. 이를 가능하게 하는 핵심 요소는 게이팅 네트워크Gating Network입니다. 전문가는 매우 많고 각기 다른 유형의 정보를 처리하는 데 특화되어 있습니다. 수많은 전문가 중 적절한 전문가를 선택하는 과정을 라우팅이라고 합니다. 게이팅 네트워크가 라우팅을 담당합니다. MoE는 수천억 개의 파라미터가 존재하는 모델이라도 추론할 때 일부만 활성화할 수 있습니다. 그래서 모델의 용량을 키우면서도 실제 계산 비용을 줄일 수 있습니다. 많은 현대 LLM이 MoE 아키텍처를 채택합니다.
MoE와 반대되는 개념으로 Dense 모델을 생각할 수 있습니다. Dense 모델은 항상 모든 뇌세포를 동원해 계산합니다.
트랜스포머란?
트랜스포머는 LLM 모델 구조 중 하나입니다. 문장 전체를 한꺼번에 고려해 처리할 수 있도록 설계되었습니다. 트랜스포머 모델은 입력된 문맥을 바탕으로 다음에 올 단어를 예측하는 방식으로 학습됩니다. 예를 들어 ‘나는 사과를 좋아한다’라는 문장을 처리할 때, 앞선 단어들의 관계를 종합적으로 고려해 다음 단어를 순차적으로 예측합니다. 이 과정에서 단어의 순서와 문장 전체의 연결성을 함께 학습합니다. 트랜스포머는 구조가 비교적 단순하고 확장성이 뛰어납니다. 모델 크기를 키우거나 변형하기 좋습니다. 최신 대규모 언어 모델들은 트랜스포머를 핵심 구조로 채택하는 경우가 많습니다. 제미나이 3도 트랜스포머 기반에 MoE와 같은 효율화 기법을 결합한 모델로 알려져 있습니다.
콘텍스트 윈도우란?
제미나이 3의 콘텍스트 윈도우는 2025년 11월 기준으로 1M, 최대 출력은 64K 토큰으로 업계 최대 규모의 콘텍스트 윈도우를 제공합니다. 콘텍스트 윈도우는 모델이 한 번에 처리할 수 있는 입력 데이터양을 의미하며, 다음과 같은 이점을 제공합니다.
장기 대화 유지 : 이전 대화 내용을 모두 기억하면서 일관성 있는 응답을 생성합니다.
대규모 코드베이스 분석 : 여러 파일에 걸친 코드 구조를 한 번에 이해합니다.
문서 전체 이해 : 긴 기술 문서나 사양서를 전체적으로 파악하여 질문에 답변합니다.
물론 콘텍스트 윈도우가 크다고 해서 무조건 모델의 성능이 올라가는 게 아닙니다. 콘텍스트 윈도우는 단순히 기억력일 뿐입니다. 기억력만 좋다고 공부를 잘하는 건 아니죠. 모델의 성능과 콘텍스트 윈도우는 별개입니다. 한 번에 처리해야 할 데이터양이 많을수록 큰 콘텍스트 윈도우가 유리한 것은 사실입니다. 하지만 사용하지 않고 남은 콘텍스트 공간이 모델의 성능으로 직결되는 것은 아닙니다.
최근 백만 토큰 콘텍스트 윈도우를 제공하는 AI가 많습니다. 업계 리더 중 하나인 클로드는 2025년 11월 기준 경쟁사 중 가장 낮은 수준인 200K 콘텍스트 윈도우를 제공하고 있습니다. 개발자 커뮤니티에서 200K 토큰이 너무 적다고 불평하는 사람들이 많습니다. 그러나 제가 아는 실력 좋은 개발자들은 그 누구도 200K 토큰에 대해 불평하지 않습니다. 저 또한 프로그래밍을 위한 콘텍스트 윈도우는 200K만 넘으면 충분하다고 생각합니다. 만약 제미나이 3이 제공하는 1M 토큰이 부족하게 느껴진다면 자신의 프로그래밍 지식과 바이브 코딩 전략을 다시 돌아봐야 합니다.
벤치마크로 보는 제미나이 3 실제 성능
벤치마크는 인공지능 모델의 성능을 측정하는 지표입니다. 제미나이 3은 다양한 벤치마크에서 업계 최고 수준의 성능을 기록했습니다. 벤치마크 수치는 그저 그런 홍보 자료가 아닙니다. 실무에서 모델이 어떤 작업을 잘하는지 판단하는 중요한 지표이므로 눈여겨볼 필요가 있습니다. 제미나이 3 발표와 함께 20개의 벤치마크 결과를 업계 최고 프론티어 모델인 제미나이 2.5 프로, 클로드 소넷 4.5, GPT 5.1과 비교해서 발표했습니다.
가장 흥미로운 점은 SWE-Bench입니다. 이 벤치마크는 소프트웨어를 제작하는 능력을 평가합니다. 제미나이 2에 비해 크게 올라간 점수입니다. 경쟁자이자 선두를 달리고 있던 클로드 소넷 4.5, GPT 5.1과 비슷한 성능이죠. 덕분에 제미나이의 프로그래밍 능력에 대한 불만을 많이 잠재웠습니다. 또 주목할 만한 벤치마크는 Vending 벤치 2입니다. AI 모델에게 실제 사업을 운영하게 시키고 결과를 지켜보는 벤치마크입니다. 한 작업을 오랫동안 수행해도 콘텍스트를 유지하며 수행하는 능력을 측정할 수 있습니다. 다음 차트에서 보여주는 것처럼 제미나이 3 프로 모델이 압도적인 결과를 보여줍니다.
벤치마크를 보면 현실의 문제를 오랫동안 잘 풀어내는 능력은 제미나이 3 프로가 가장 뛰어나다고 이야기할 수 있을 것 같습니다. 이 외에도 고등학교 수준의 고난도 수학 경시대회 문제를 푸는 벤치마크를 100% 정확도로 해결합니다. 일반 추론 능력을 평가하는 ARC-AGI-2에서는 압도적인 성과인 31.1%를 이뤄냅니다. 왜 차세대 최고의 모델 중 하나로 제미나이 3 프로 모델을 이야기하는지 충분한 이유를 보여주고 있습니다. 우리는 압도적인 성능을 보여주는 제미나이 3 프로 모델을 안티그래비티에서 사용합니다. 지금부터 이전에 없었던 생산성을 누려보겠습니다.
제미나이를 사용하는 다양한 방법
우리는 주로 안티그래비티에서 제미나이 3을 사용할 겁니다. 안티그래비티 외에도 제미나이를 사용하는 다양한 방법이 있습니다. 대표적인 방법은 제미나이 웹, 구글 AI 스튜디오, 구글 클라우드 버텍스 AI입니다. 최근 뜨거운 반응을 일으킨 제미나이의 이미지 생성 모델인 나노바나나도 있습니다. 다양한 모습의 제미나이를 알아보고 상황에 따라 적합한 방법으로 제미나이를 사용하세요.
제미나이 웹
제미나이 웹을 사용하는 방법은 간단합니다. 구글 제미나이 공식 홈페이지에 접속하면 됩니다. 우리가 알고 있는 채팅 화면입니다.
제미나이 : gemini.google.com
제미나이 최신 모델을 사용해서 텍스트, 이미지, 동영상 등을 생성할 수 있습니다. 특히 구글의 최신 비디오 생성 엔진인 Veo 3도 간단히 사용할 수 있어서 가벼운 작업에 유리합니다. 하지만 프로그래밍이나 연속성이 있는 고난도 작업을 하기에는 적합한 인터페이스가 아닙니다. 여행 스케줄링, 프로그래밍 관련 단순 질문, 아이디어 브레인스토밍 등 짧은 단일 작업을 수행하기에 좋습니다.
구글 AI 스튜디오
구글 AI 스튜디오는 제미나이 웹 인터페이스를 조금 더 전문적인 작업에 적합하게 변형한 형태입니다. 다음 링크에서 접속해볼 수 있습니다.
구글 AI 스튜디오 : aistudio.google.com
제미나이 웹과 비교했을 때 확실히 복잡합니다. 구글 AI 스튜디오에서는 제미나이 웹에서 할 수 있는 작업에 더해 다양한 기능을 제공합니다. Temperature, Media Resolution, Thinking Level 조정, Code Execution을 통한 복잡한 작업 자동화 등 제미나이를 더욱 세세하게 컨트롤할 수 있습니다. Build 탭에서는 채팅을 통해 직접 앱을 만들고 결과물을 확인해볼 수도 있습니다. 실제 생산성을 높일 수 있는 자동화를 하거나 복잡한 프로그램을 만들 때 입문하기에 적합한 서비스입니다.
구글 클라우드 버텍스 AI
구글 클라우드 버텍스 AI는 지금까지 소개한 도구 중 가장 강력한 도구입니다.
구글 클라우드 버텍스 AI : console.cloud.google.com/vertex-ai/dashboard
구글 클라우드 버텍스 AI는 독립적인 사이트로 운영하지 않고 구글 서비스 통합 플랫폼인 구글 클라우드 플랫폼에서 제공합니다. 구글 클라우드 버텍스 AI는 머신러닝 모델을 커스터마이즈하고 생성형 AI를 파인튜닝하여 배포할 수 있습니다. 구글에서 제공하는 인터페이스를 통하지 않고 프로그램에서 직접 AI와 API를 연동하는 방식이므로 API 키가 필요합니다. API 키를 받을 수 있는 곳도 구글 클라우드 플랫폼이기 때문에 같은 페이지에서 발급할 수 있습니다.
나노바나나
구글이 AI 경쟁에서 뒤처지고 있다고 생각할 때쯤 세상을 놀라게 한 AI가 나노바나나입니다. 이미지 성능을 비교 테스트할 수 있는 LM Arena라는 사이트가 있습니다. 이 사이트에서는 프롬프트를 입력하면 랜덤한 모델 두 개가 생성한 이미지를 보여주고 더욱 잘 생성한 이미지를 선택할 수 있습니다. 어느 날 갑자기 모든 모델을 압도하는 성능을 갖춘 나노바나나라는 이름의 AI가 등장합니다. 그리고 얼마 안 가 구글에서 공식으로 나노바나나를 출시하며 AI 이미지 생성에 엄청난 변화를 불러왔습니다. 기존 이미지 생성 모델은 주어진 이미지를 똑같이 다시 그려내는 능력이 많이 부족했습니다. 나노바나나는 마치 포토샵을 한 듯 모델은 유지한 채 완전히 다른 옷을 입히거나 표정을 바꾸는 등 믿기 힘든 능력을 보여줬습니다. 안티그래비티를 사용할 때도 나노바나나가 에셋 파일이나 디자인 목업을 담당하면서 타모델에 비해 압도적인 디자인 능력을 보여줍니다.
나노바나는 입력된 이미지를 해석하고 특정 요소들을 그대로 그려내거나 새롭게 변형하는 능력이 뛰어나기 때문에 웹사이트나 앱 디자인을 할 때도 매우 유용합니다. 구글이 제작한 웹·앱 디자인 서비스인 스티치Stitch에서 기존 웹·앱의 스크린샷을 첨부한 후 새롭게 디자인해달라고 하면 프롬프트에 어울리는 새로운 멋진 디자인을 만들어줍니다.
나노바나나라는 독특한 이름은 구글의 프로덕트 매니저 ‘니나’가 지었습니다. 새벽 2시 30분경, AI Arena 출시를 위해 비몽사몽한 상태에서 무심코 나노바나나로 정한 것이죠. 이 인상적인 이름은 많은 사람에게 강력히 각인되는 바람에 공식 명칭으로 사용되었습니다.
