Gemini 패밀리 완전 해부: Google의 멀티모달 LLM 전략

지난 글에서 Anthropic이 Constitutional AI로 어떻게 안전성 우선 LLM을 구축했는지 살펴봤다. 이제 세 번째 거대 LLM 가문을 만날 차례다. 검색 엔진, 유튜브, 안드로이드, 지메일을 보유한 AI 산업 최대의 데이터 보유자 Google이 내놓은 Gemini 패밀리는 처음부터 “멀티모달 네이티브”라는 차별화된 방향을 선택했다.

Bard에서 Gemini로: Google의 LLM 전략 재편

Google은 ChatGPT 등장 직후인 2023년 2월 Bard를 출시했다. 그러나 Bard의 데모에서 사실 오류가 발생하며 Google 주가가 하루에 8% 하락하는 사태가 벌어졌다. 이 실패는 Google이 LLM 전략을 근본부터 재검토하는 계기가 됐다.

Google은 기존 PaLM, LaMDA 등의 연구를 통합하고, DeepMind와 Google Brain을 합병해 Google DeepMind를 출범시켰다. 그 결과물이 2023년 12월 공개된 Gemini 1.0이다. 이름 자체가 브랜드 전략이었다. Bard를 버리고 Gemini라는 이름으로 제품과 모델을 통합했다.

Gemini의 핵심 철학: 멀티모달 네이티브

GPT와 Claude가 텍스트 모델로 시작해 멀티모달을 나중에 추가한 것과 달리, Gemini는 처음부터 멀티모달로 설계됐다. 텍스트, 이미지, 오디오, 비디오, 코드를 하나의 통합된 모델로 처리한다.

이 차이는 단순한 기능 추가가 아니다. 멀티모달 네이티브 모델은 서로 다른 모달리티 간의 관계를 더 깊이 이해한다. 예를 들어, 그래프 이미지를 보여주고 “이 추세가 계속되면 내년은 어떻게 될까?”라고 물으면, Gemini는 이미지의 시각적 패턴을 수치적 추론과 결합해 답할 수 있다.

Gemini 패밀리 구조

Gemini Ultra: 처음으로 GPT-4를 넘은 모델

Gemini Ultra는 Gemini 1.0 시리즈의 최고 성능 모델이다. 2024년 2월 “Gemini Advanced”라는 이름으로 Google One AI Premium 구독자에게 제공됐다.

Gemini Ultra의 역사적 의의는 MMLU(대규모 멀티태스크 언어 이해) 벤치마크에서 최초로 90%를 초과달성한 것이다. 이는 GPT-4의 MMLU 점수를 최초로 넘어선 공개 모델이었다. 단, 벤치마크 성능이 실제 사용 경험과 항상 일치하지는 않으며, 각 모델이 서로 다른 강점을 가진다는 점을 기억해야 한다.

Gemini 1.5 Pro: 1M 토큰 컨텍스트의 충격

2024년 2월 Google이 공개한 Gemini 1.5 Pro는 LLM 업계 전체를 놀라게 했다. 1,000,000 토큰(1M 토큰) 컨텍스트를 지원한 것이다.

이는 단순한 숫자의 차이가 아니다. GPT-4 Turbo의 128K 토큰, Claude 3 Opus의 200K 토큰과 비교해 5~8배 더 긴 컨텍스트다.

1M 토큰이 가능하게 하는 것들을 구체적으로 나열하면 이렇다. 소설 10권 전체를 한 번에 분석하거나, 1시간짜리 동영상 전체를 처리하거나, 3만 줄 이상의 대규모 코드베이스를 전부 인식하거나, 수천 페이지의 법률 계약서를 세밀하게 검색할 수 있다.

이를 가능하게 한 핵심 기술은 Multi-head Latent Attention이다. KV 캐시를 효율적으로 압축해 메모리 사용량을 줄이면서도 긴 컨텍스트에서 성능을 유지하는 방식이다.

Gemini 1.5 Pro 1M 토큰 컨텍스트

Google AI Studio와 Vertex AI

Gemini는 두 가지 경로로 API를 제공한다.

Google AI Studio: 개발자 친화적인 무료 실험 환경이다. 개인 프로젝트나 프로토타입 개발에 적합하다. 무료 티어에서 Gemini 1.5 Flash, Gemini 1.5 Pro를 사용할 수 있다.

Vertex AI: Google Cloud 기반의 엔터프라이즈 환경이다. 데이터 거버넌스, SLA, 보안, 대규모 배포에 필요한 기능이 갖춰져 있다. 기업용 프로덕션 배포에 사용된다.

# Google AI Studio를 통한 Gemini API 사용
import google.generativeai as genai

genai.configure(api_key="YOUR_GOOGLE_AI_STUDIO_KEY")

# 멀티모달: 이미지 + 텍스트 결합 질의
import PIL.Image

model = genai.GenerativeModel("gemini-1.5-pro")

# 텍스트만
response = model.generate_content(
    "파이썬에서 제너레이터와 이터레이터의 차이를 설명해줘."
)
print(response.text)

# 이미지 + 텍스트 (멀티모달)
img = PIL.Image.open("chart.png")
response = model.generate_content([
    img,
    "이 그래프의 트렌드를 분석하고 다음 분기 예측을 알려줘."
])
print(response.text)

Gemini Flash: 속도와 비용의 최적점

Gemini 1.5 Flash는 Pro의 능력을 유지하면서 속도를 3~5배, 비용을 약 10배 낮춘 모델이다. Google의 내부 기술인 Distillation — Pro 모델의 지식을 Flash로 전달하는 방법 — 을 사용해 경량화했다.

Flash는 실시간 스트리밍 애플리케이션, 대용량 문서 처리 파이프라인, 사용자 대면 챗봇처럼 응답 속도가 핵심인 사용 사례에 최적이다. 1M 토큰 컨텍스트도 지원하면서 비용이 매우 저렴해, 대량 문서 처리의 경제적 선택지다.

Gemini Nano: 온디바이스 AI

Gemini Nano는 스마트폰에서 직접 실행되는 모델이다. Pixel 8 이상 기기에 탑재되어 있으며, 이메일 스마트 리플라이, 오프라인 번역, Recorder 앱 자막 기능 등에 사용된다.

온디바이스 AI의 핵심 장점은 프라이버시다. 사용자의 메시지가 클라우드 서버로 전송되지 않고 기기 내에서 처리된다. 인터넷 연결 없이도 동작하며, 응답 속도가 네트워크 지연 없이 즉각적이다.

Gemini 2.0: 에이전트 시대의 Gemini

2024년 12월 공개된 Gemini 2.0 Flash는 “에이전트 시대를 위한 모델”이라는 슬로건을 내걸었다. 실시간 멀티모달 스트리밍이 가능해, 화면을 보면서 대화하거나, 동영상 스트림을 실시간으로 분석하며 코멘트를 제공하는 것이 가능해졌다.

# Gemini 2.0 Flash 스트리밍 응답
import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.0-flash-exp")

# 스트리밍으로 긴 답변 받기
for chunk in model.generate_content(
    "한국 AI 스타트업 생태계의 현황과 과제를 상세히 설명해줘.",
    stream=True
):
    print(chunk.text, end="", flush=True)

Google의 독특한 강점: 검색과 생태계

Gemini가 GPT나 Claude와 가장 다른 강점은 Google 생태계와의 통합이다. Google 검색, Gmail, Google Docs, YouTube, Google Maps 등과 깊이 통합되어 있다.

“내 이메일에서 지난달 회의 일정을 찾아줘”나 “유튜브에서 이 영상의 주요 내용을 요약해줘”처럼, 단순한 언어 모델을 넘어 실제 개인 데이터와 서비스를 연결한 AI 경험을 제공한다. 이는 GPT나 Claude가 쉽게 복제하기 어려운 구조적 강점이다.

세 거대 LLM 가문 — GPT, Claude, Gemini — 을 살펴봤다. 그런데 이 모든 모델은 API를 통해서만 접근할 수 있고, 비용이 든다. 다음 글에서는 완전 오픈소스로, 직접 실행할 수 있는 Meta의 LLaMA 패밀리를 해부한다.

지난 글: Claude 패밀리 완전 해부: Constitutional AI와 안전성 우선 설계

다음 글: LLaMA 패밀리 완전 해부: 오픈소스 LLM 혁명

읽어주셔서 감사합니다. 😊