Mistral 패밀리 완전 해부: 유럽 오픈소스 LLM의 반격

지난 글에서 Meta의 LLaMA가 오픈소스 LLM 생태계를 어떻게 폭발시켰는지 살펴봤다. 그런데 오픈소스 LLM 혁명에는 또 다른 주인공이 있다. 2023년 프랑스에서 조용히 등장해, 단 한 개의 모델로 업계 전체를 뒤흔든 Mistral AI다. “작지만 강한” 효율성을 무기로 유럽 LLM의 자존심을 세운 이 팀의 이야기를 해부한다.

Mistral AI: 구글 딥마인드와 메타 출신이 만든 스타트업

Mistral AI는 2023년 5월, Arthur Mensch(Google DeepMind 연구원), Guillaume Lample, Timothée Lacroix(Meta AI 연구원) 세 명이 공동 창업했다. 창업 4개월 만에 1억 1300만 유로를 투자받아 유럽 역사상 초기 투자 최대 규모를 기록했다.

회사 이름은 프랑스 남부를 가로지르는 강풍 “미스트랄(Mistral)“에서 따왔다. 창업자들의 철학은 명확했다. “AI는 소수 미국 기업의 독점이 아니라, 전 세계가 접근할 수 있는 오픈소스여야 한다.”

Mistral AI의 첫 번째 제품은 논문도, 블로그 포스트도 아니었다. 단 한 줄의 텍스트였다. 2023년 9월, Arthur Mensch가 트위터에 “Torrent of Mistral 7B”라는 제목으로 매그넷 링크를 공유했다. 아무 설명 없이, 모델 가중치만. 업계는 충격을 받았다.

Mistral 7B: 작지만 압도적인 효율성

다운로드해서 열어본 연구자들은 더 큰 충격을 받았다. 7B(70억 파라미터) 모델이 LLaMA 2 13B를 모든 벤치마크에서 능가했고, 일부 태스크에서는 LLaMA 2 34B와 경쟁했다.

어떻게 이것이 가능했을까? 두 가지 핵심 기법 덕분이다.

Sliding Window Attention(SWA): 표준 Transformer의 셀프 어텐션은 모든 이전 토큰을 봐야 하므로 O(n²)의 메모리가 필요하다. SWA는 각 토큰이 바라보는 범위를 고정 크기의 “윈도우”로 제한한다. 예를 들어 윈도우 크기가 4096이면, 현재 토큰은 이전 4096개 토큰만 어텐션한다. 메모리와 연산이 O(n×w)로 줄어 긴 컨텍스트를 훨씬 효율적으로 처리한다.

Sliding Window Attention vs Full Attention

Grouped Query Attention(GQA): Multi-Head Attention(MHA)에서 각 헤드는 독립적인 Key와 Value를 갖는다. GQA는 여러 쿼리 헤드가 단일 Key-Value 쌍을 공유하게 한다. KV 캐시 메모리가 크게 줄어 추론 속도가 향상된다.

이 두 기법의 조합으로 Mistral 7B는 비슷한 파라미터 수의 모델들과 비교해 월등한 효율성을 달성했다. Apache 2.0 라이선스로 상업적으로도 완전히 자유롭게 사용할 수 있었다.

# Mistral 7B를 Transformers 라이브러리로 실행
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mistral-7B-Instruct-v0.3"
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 인스트럭트 모델은 특정 채팅 템플릿 사용
messages = [
    {"role": "user", "content": "파이썬에서 데코레이터를 활용한 캐싱 구현 방법을 설명해줘."}
]

# 채팅 템플릿 적용
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto"
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Mixtral 8x7B: Sparse MoE의 대중화

2023년 12월, Mistral은 다시 한 번 아무 예고 없이 모델을 공개했다. 이번엔 Mixtral 8x7B, 업계 최초의 상업용 Sparse Mixture of Experts(MoE) 오픈소스 모델이었다.

MoE 아키텍처의 핵심 아이디어: 하나의 거대한 Feed-Forward Network 대신, 여러 전문화된 소규모 네트워크(Expert)를 두고, 각 토큰마다 적합한 전문가만 활성화한다. Mixtral 8x7B는 8개의 전문가 네트워크를 가지며, 각 토큰 처리 시 그 중 2개만 활성화한다.

숫자로 보는 MoE 효율성:

전체 파라미터: 46.7B
추론 시 활성화 파라미터: 약 12.9B
성능은 70B급, 추론 속도는 13B급

GPT-3.5와 동등하거나 능가하는 성능을 LLaMA 2 70B의 절반 이하 비용으로 달성했다. 다국어(영어, 프랑스어, 이탈리아어, 독일어, 스페인어)에서도 우수한 성능을 보였다.

Mistral 패밀리 모델 맵

Mistral Large와 Le Chat

Mistral AI는 오픈소스만으로 사업을 지속할 수 없음을 인정하고, 2024년부터 상업 API 서비스를 시작했다.

Mistral Large: GPT-4급 성능의 클로즈드 모델이다. La Plateforme API를 통해 제공되며, 특히 프랑스어를 포함한 다국어 처리에 강점이 있다. EU 데이터 주권을 중시하는 유럽 기업들에게 인기를 끌고 있다.

Le Chat: Mistral AI의 직접 대화 서비스다. Claude와 ChatGPT에 대응하는 Mistral의 소비자 제품이다.

Codestral: 코딩 특화 모델로, 80개 이상의 프로그래밍 언어를 지원한다. Fill-in-the-Middle(FIM) 기능으로 코드 중간 부분을 채우는 데 특화되어 있다. VS Code 플러그인으로도 사용 가능하다.

# Mistral API 사용 (La Plateforme)
from mistralai import Mistral

client = Mistral(api_key="YOUR_MISTRAL_API_KEY")

# Mistral Large로 분석
response = client.chat.complete(
    model="mistral-large-latest",
    messages=[
        {
            "role": "user",
            "content": "EU AI Act가 LLM 개발사에 미치는 영향을 분석해줘."
        }
    ]
)
print(response.choices[0].message.content)

# 코드 완성 (Codestral FIM)
response = client.fim.complete(
    model="codestral-latest",
    prompt="def fibonacci(n):\n    if n <= 1:\n        return n\n",
    suffix="\n    return fib(n-1) + fib(n-2)"
)
print(response.choices[0].message.content)

Mistral NeMo: NVIDIA와의 협력

2024년 7월, Mistral은 NVIDIA와 협력해 Mistral NeMo 12B를 공개했다. 12B 파라미터지만 Apache 2.0 라이선스로 상업용으로 자유롭게 사용할 수 있다. NVIDIA의 NeMo 프레임워크와 통합되어 엔터프라이즈 환경에서 파인튜닝과 배포가 쉽다.

컨텍스트 창은 128K 토큰으로, 당시 오픈소스 12B급 모델 중 가장 긴 컨텍스트를 제공했다.

Mistral이 보여준 것

Mistral AI의 성공은 LLM 세계에 중요한 메시지를 전달했다.

크기보다 효율성: 175B GPT-3를 7B 모델로 능가할 수 있다면, AI 경쟁은 단순한 파라미터 수 경쟁이 아니다. 아키텍처 혁신이 크기를 압도할 수 있다.

유럽의 AI 주권: OpenAI, Google, Meta가 지배하는 AI 시장에서 유럽 팀이 경쟁력 있는 모델을 만들 수 있다는 것을 증명했다.

오픈소스의 경제학: 최고 성능 모델을 오픈소스로 공개하면서도 상업 API와 엔터프라이즈 서비스로 수익화하는 비즈니스 모델이 작동함을 보였다.

지금까지 서구의 주요 LLM 패밀리를 살펴봤다. 다음 글에서는 중국에서 조용히 성장해 세계를 놀라게 한 Qwen과 DeepSeek을 해부한다.

지난 글: LLaMA 패밀리 완전 해부: 오픈소스 LLM 혁명

다음 글: Qwen과 DeepSeek: 중국 오픈소스 LLM의 도전

읽어주셔서 감사합니다. 😊