스케일링 법칙: 더 크게, 더 많이, 더 강하게

지난 글에서 Constitutional AI가 원칙 기반으로 AI를 정렬하는 방법을 살펴봤다. 이번에는 LLM의 성능 자체를 결정하는 근본적인 질문으로 돌아간다. “모델을 얼마나 크게 만들어야 하는가? 데이터는 얼마나 필요한가? 컴퓨팅은 어떻게 분배해야 하는가?” 이 질문들에 답하는 것이 스케일링 법칙(Scaling Laws)이다. 2020년 OpenAI의 Kaplan 법칙과 2022년 DeepMind의 Chinchilla 법칙은 단순한 학술적 결과가 아니다. GPT-4, Llama, Claude 등 현재 최고 성능 모델들의 학습 전략이 이 법칙들을 따른다.

스케일링 법칙이란

스케일링 법칙은 LLM의 검증 손실(validation loss)이 세 가지 요소—파라미터 수(N), 학습 데이터 토큰 수(D), 컴퓨팅 예산(C)—에 따라 어떻게 변하는지를 기술하는 수학적 관계다.

Kaplan et al.(2020)이 발견한 관계는 놀랍도록 단순한 멱함수(power law) 형태다:

L(N) ≈ (N_c / N)^α_N    (파라미터만 변화시킬 때)
L(D) ≈ (D_c / D)^α_D    (데이터만 변화시킬 때)

여기서 α_N ≈ 0.076, α_D ≈ 0.095다. 이는 로그-로그 그래프에서 직선으로 나타난다. 즉, 파라미터를 10배 늘리면 손실이 대략 10^0.076 ≈ 1.19배 감소한다. 작아 보이지만, 이런 감소가 수십 배, 수백 배 반복되면 엄청난 성능 향상으로 이어진다.

스케일링 법칙 곡선

세 가지 스케일링 축

N: 모델 파라미터 수

트랜스포머의 파라미터는 주로 어텐션 레이어의 가중치 행렬들로 구성된다. 레이어 수, 어텐션 헤드 수, 히든 차원을 늘리면 N이 증가한다. GPT-2는 1.5B, GPT-3은 175B, GPT-4는 수조 파라미터 규모로 추정된다.

N이 증가하면 모델이 더 복잡한 패턴을 학습할 수 있다. 하지만 N만 늘리고 D가 고정이면 과적합(overfitting)이 발생한다. 모델 용량보다 데이터가 적으면 같은 데이터를 반복 학습하며 일반화 능력이 떨어진다.

D: 학습 데이터 토큰 수

D는 사전학습에 사용하는 텍스트 토큰 수다. GPT-3은 300B 토큰, Llama 2는 2T 토큰, Llama 3는 15T 토큰을 사용했다.

데이터 품질도 중요하다. CommonCrawl의 웹 데이터는 양은 많지만 노이즈가 많다. 책, 위키피디아, 코드 등 고품질 소스를 필터링하고 혼합하는 것이 중요하다. 같은 D라도 품질이 높으면 더 낮은 손실을 달성한다.

C: 컴퓨팅 예산 (FLOPs)

C는 전체 학습에 사용되는 부동소수점 연산 수다. 대략적으로:

C ≈ 6 × N × D  (FLOPs)

즉, 컴퓨팅 예산은 파라미터 수와 토큰 수의 곱에 비례한다. 고정된 컴퓨팅 예산 C를 어떻게 N과 D에 분배하느냐가 핵심이다.

Kaplan 법칙의 주장

2020년 OpenAI의 Kaplan 논문은 고정된 C에서 모델 크기(N)를 우선시하라고 권고했다. 구체적으로, 최적 비율은 D ≈ 10 × N이었다. 175B 파라미터 모델이라면 1.75T 토큰으로 충분하다는 뜻이다. GPT-3은 실제로 300B 토큰만 사용했고, 이는 Kaplan 법칙 기준으로도 과소 학습이었다.

이 결론이 틀렸음을 2년 후 DeepMind가 증명했다.

Chinchilla 법칙: 패러다임 전환

# Chinchilla 최적 토큰 수 계산
def optimal_tokens(params: int) -> int:
    """
    Chinchilla 법칙: D_opt = 20 * N
    N: 파라미터 수, D: 학습 토큰 수
    """
    return 20 * params

# 예시
gpt3_params = 175_000_000_000   # 175B
gpt3_tokens = 300_000_000_000   # 300B 실제 학습

chinchilla_optimal = optimal_tokens(gpt3_params)
# 3,500,000,000,000 (3.5T) 토큰이 최적
print(f"GPT-3 실제: {gpt3_tokens/1e12:.1f}T 토큰")
print(f"Chinchilla 권장: {chinchilla_optimal/1e12:.1f}T 토큰")

2022년 DeepMind의 Hoffmann et al.이 발표한 Chinchilla 논문은 기존 상식을 뒤집었다. 더 꼼꼼한 실험 설계로 재분석한 결과, 최적 비율은 D ≈ 20 × N임을 발견했다. Kaplan 법칙보다 데이터를 2배 더 써야 한다는 것이다.

Chinchilla(70B, 1.4T 토큰)와 Gopher(280B, 300B 토큰)를 비교했을 때, 파라미터는 4배 작지만 데이터를 훨씬 많이 사용한 Chinchilla가 대부분의 벤치마크에서 Gopher를 능가했다.

Kaplan vs Chinchilla 비교

Chinchilla 법칙이 바꾼 것들

Chinchilla 법칙 발표 이후 LLM 학습 전략이 완전히 바뀌었다:

Llama 시리즈: Meta의 Llama 1(2023)은 7B 파라미터 모델을 1T 토큰으로 학습했다. Chinchilla 권장(140B)보다 훨씬 많다. 이유는? “추론 효율성”이다. 학습 비용보다 수천만 번의 추론 비용이 훨씬 크기 때문에, 작은 모델을 많이 학습해 추론 시 작게 유지하는 전략이 실용적이다.

GPT-4: 정확한 학습 데이터 규모는 공개되지 않았지만, 수십 조 토큰을 사용한 것으로 추정된다.

Llama 3: 405B 모델을 15T+ 토큰으로 학습. Chinchilla 권장(8.1T)을 크게 초과한다. 이는 “추론 효율 최적”이 아니라 “성능 최대화”를 목표로 했기 때문이다.

스케일링 법칙의 실용적 함의

스케일링 법칙은 단순히 “크면 클수록 좋다”는 말이 아니다. 컴퓨팅 예산이 고정되어 있을 때 최적의 분배 전략을 알려준다:

연구 목적 (최적 성능): N과 D를 모두 Chinchilla 비율에 맞게 증가. 가능한 한 큰 모델을 충분한 데이터로 학습.

서비스 목적 (추론 효율): 모델을 작게 유지하면서 데이터를 많이 사용. 7B 모델을 10T 토큰으로 학습하면 70B 모델에 가까운 성능을 더 빠른 추론으로 달성.

데이터 제한 상황: 고품질 데이터가 부족하면 모델을 더 크게 만들어 보상. 반복 학습(epoch > 1)의 효과는 아직 활발히 연구 중.

스케일링 법칙의 한계

스케일링 법칙이 모든 것을 예측하지는 않는다:

창발적 능력: 특정 능력들은 연속적으로 향상되지 않고 임계 크기에서 갑자기 나타난다. 스케일링 법칙은 평균 손실만 예측하며, 개별 능력의 창발을 예측하지 못한다. (다음 글 주제)

데이터 품질 변수: 법칙은 “균질한 데이터”를 가정하지만, 실제 학습 데이터는 다양한 품질이 혼재한다.

아키텍처 의존성: 트랜스포머 기반 모델에서 검증된 법칙이며, 다른 아키텍처(Mamba, RWKV 등)에서는 다를 수 있다.

비용 곡선의 변화: 하드웨어 발전, 양자화, 새로운 학습 기법이 C-N-D 관계를 바꿀 수 있다.

스케일링 법칙은 현재까지 가장 신뢰할 수 있는 LLM 성능 예측 도구다. 수조 원 규모의 학습 투자를 결정하는 데 이 법칙이 사용된다. 다음 글에서는 스케일링으로 인해 나타나는 놀라운 현상인 창발적 능력(Emergent Abilities)—예상하지 못한 시점에 갑자기 나타나는 새로운 능력들—을 살펴본다.

지난 글: Constitutional AI: 원칙 기반 AI 정렬

다음 글: 창발적 능력: 규모에서 탄생하는 새로운 역량

읽어주셔서 감사합니다. 😊