Mistral 패밀리 완전 해부: 유럽 오픈소스 LLM의 반격
Mistral AI의 탄생 배경, Mistral 7B의 Sliding Window Attention, Mixtral 8x7B의 Sparse MoE 아키텍처, Mistral Large API, Codestral 코딩 모델, 그리고 La Plateforme 활용법을 한국어로 완전 해설한다.
지난 글에서 Meta의 LLaMA가 오픈소스 LLM 생태계를 어떻게 폭발시켰는지 살펴봤다. 그런데 오픈소스 LLM 혁명에는 또 다른 주인공이 있다. 2023년 프랑스에서 조용히 등장해, 단 한 개의 모델로 업계 전체를 뒤흔든 Mistral AI다. “작지만 강한” 효율성을 무기로 유럽 LLM의 자존심을 세운 이 팀의 이야기를 해부한다.
Mistral AI: 구글 딥마인드와 메타 출신이 만든 스타트업
Mistral AI는 2023년 5월, Arthur Mensch(Google DeepMind 연구원), Guillaume Lample, Timothée Lacroix(Meta AI 연구원) 세 명이 공동 창업했다. 창업 4개월 만에 1억 1300만 유로를 투자받아 유럽 역사상 초기 투자 최대 규모를 기록했다.
회사 이름은 프랑스 남부를 가로지르는 강풍 “미스트랄(Mistral)“에서 따왔다. 창업자들의 철학은 명확했다. “AI는 소수 미국 기업의 독점이 아니라, 전 세계가 접근할 수 있는 오픈소스여야 한다.”
Mistral AI의 첫 번째 제품은 논문도, 블로그 포스트도 아니었다. 단 한 줄의 텍스트였다. 2023년 9월, Arthur Mensch가 트위터에 “Torrent of Mistral 7B”라는 제목으로 매그넷 링크를 공유했다. 아무 설명 없이, 모델 가중치만. 업계는 충격을 받았다.
Mistral 7B: 작지만 압도적인 효율성
다운로드해서 열어본 연구자들은 더 큰 충격을 받았다. 7B(70억 파라미터) 모델이 LLaMA 2 13B를 모든 벤치마크에서 능가했고, 일부 태스크에서는 LLaMA 2 34B와 경쟁했다.
어떻게 이것이 가능했을까? 두 가지 핵심 기법 덕분이다.
Sliding Window Attention(SWA): 표준 Transformer의 셀프 어텐션은 모든 이전 토큰을 봐야 하므로 O(n²)의 메모리가 필요하다. SWA는 각 토큰이 바라보는 범위를 고정 크기의 “윈도우”로 제한한다. 예를 들어 윈도우 크기가 4096이면, 현재 토큰은 이전 4096개 토큰만 어텐션한다. 메모리와 연산이 O(n×w)로 줄어 긴 컨텍스트를 훨씬 효율적으로 처리한다.
Grouped Query Attention(GQA): Multi-Head Attention(MHA)에서 각 헤드는 독립적인 Key와 Value를 갖는다. GQA는 여러 쿼리 헤드가 단일 Key-Value 쌍을 공유하게 한다. KV 캐시 메모리가 크게 줄어 추론 속도가 향상된다.
이 두 기법의 조합으로 Mistral 7B는 비슷한 파라미터 수의 모델들과 비교해 월등한 효율성을 달성했다. Apache 2.0 라이선스로 상업적으로도 완전히 자유롭게 사용할 수 있었다.
# Mistral 7B를 Transformers 라이브러리로 실행
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mistral-7B-Instruct-v0.3"
tokenizer = AutoTokenizer.from_pretrained(model_id)
# 인스트럭트 모델은 특정 채팅 템플릿 사용
messages = [
{"role": "user", "content": "파이썬에서 데코레이터를 활용한 캐싱 구현 방법을 설명해줘."}
]
# 채팅 템플릿 적용
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype="auto",
device_map="auto"
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Mixtral 8x7B: Sparse MoE의 대중화
2023년 12월, Mistral은 다시 한 번 아무 예고 없이 모델을 공개했다. 이번엔 Mixtral 8x7B, 업계 최초의 상업용 Sparse Mixture of Experts(MoE) 오픈소스 모델이었다.
MoE 아키텍처의 핵심 아이디어: 하나의 거대한 Feed-Forward Network 대신, **여러 전문화된 소규모 네트워크(Expert)**를 두고, 각 토큰마다 적합한 전문가만 활성화한다. Mixtral 8x7B는 8개의 전문가 네트워크를 가지며, 각 토큰 처리 시 그 중 2개만 활성화한다.
숫자로 보는 MoE 효율성:
- 전체 파라미터: 46.7B
- 추론 시 활성화 파라미터: 약 12.9B
- 성능은 70B급, 추론 속도는 13B급
GPT-3.5와 동등하거나 능가하는 성능을 LLaMA 2 70B의 절반 이하 비용으로 달성했다. 다국어(영어, 프랑스어, 이탈리아어, 독일어, 스페인어)에서도 우수한 성능을 보였다.
Mistral Large와 Le Chat
Mistral AI는 오픈소스만으로 사업을 지속할 수 없음을 인정하고, 2024년부터 상업 API 서비스를 시작했다.
Mistral Large: GPT-4급 성능의 클로즈드 모델이다. La Plateforme API를 통해 제공되며, 특히 프랑스어를 포함한 다국어 처리에 강점이 있다. EU 데이터 주권을 중시하는 유럽 기업들에게 인기를 끌고 있다.
Le Chat: Mistral AI의 직접 대화 서비스다. Claude와 ChatGPT에 대응하는 Mistral의 소비자 제품이다.
Codestral: 코딩 특화 모델로, 80개 이상의 프로그래밍 언어를 지원한다. Fill-in-the-Middle(FIM) 기능으로 코드 중간 부분을 채우는 데 특화되어 있다. VS Code 플러그인으로도 사용 가능하다.
# Mistral API 사용 (La Plateforme)
from mistralai import Mistral
client = Mistral(api_key="YOUR_MISTRAL_API_KEY")
# Mistral Large로 분석
response = client.chat.complete(
model="mistral-large-latest",
messages=[
{
"role": "user",
"content": "EU AI Act가 LLM 개발사에 미치는 영향을 분석해줘."
}
]
)
print(response.choices[0].message.content)
# 코드 완성 (Codestral FIM)
response = client.fim.complete(
model="codestral-latest",
prompt="def fibonacci(n):\n if n <= 1:\n return n\n",
suffix="\n return fib(n-1) + fib(n-2)"
)
print(response.choices[0].message.content)
Mistral NeMo: NVIDIA와의 협력
2024년 7월, Mistral은 NVIDIA와 협력해 Mistral NeMo 12B를 공개했다. 12B 파라미터지만 Apache 2.0 라이선스로 상업용으로 자유롭게 사용할 수 있다. NVIDIA의 NeMo 프레임워크와 통합되어 엔터프라이즈 환경에서 파인튜닝과 배포가 쉽다.
컨텍스트 창은 128K 토큰으로, 당시 오픈소스 12B급 모델 중 가장 긴 컨텍스트를 제공했다.
Mistral이 보여준 것
Mistral AI의 성공은 LLM 세계에 중요한 메시지를 전달했다.
크기보다 효율성: 175B GPT-3를 7B 모델로 능가할 수 있다면, AI 경쟁은 단순한 파라미터 수 경쟁이 아니다. 아키텍처 혁신이 크기를 압도할 수 있다.
유럽의 AI 주권: OpenAI, Google, Meta가 지배하는 AI 시장에서 유럽 팀이 경쟁력 있는 모델을 만들 수 있다는 것을 증명했다.
오픈소스의 경제학: 최고 성능 모델을 오픈소스로 공개하면서도 상업 API와 엔터프라이즈 서비스로 수익화하는 비즈니스 모델이 작동함을 보였다.
지금까지 서구의 주요 LLM 패밀리를 살펴봤다. 다음 글에서는 중국에서 조용히 성장해 세계를 놀라게 한 Qwen과 DeepSeek을 해부한다.
지난 글: LLaMA 패밀리 완전 해부: 오픈소스 LLM 혁명
다음 글: Qwen과 DeepSeek: 중국 오픈소스 LLM의 도전
읽어주셔서 감사합니다. 😊