창발적 능력: 규모에서 탄생하는 새로운 역량

지난 글에서 파라미터·데이터·컴퓨팅이 증가함에 따라 LLM의 손실이 예측 가능한 멱함수 법칙으로 감소한다는 것을 살펴봤다. 스케일링 법칙은 강력한 예측 도구다. 그러나 LLM 연구에서 가장 놀랍고, 가장 논쟁적이며, AI 안전의 관점에서 가장 우려스러운 현상이 있다. 창발적 능력(Emergent Abilities)—특정 규모 임계값을 넘어서면 갑자기, 예측 불가능하게 나타나는 새로운 능력들이다. 2022년 Wei et al.이 발표한 논문은 이 현상을 처음으로 체계적으로 문서화했다. 작은 모델에서는 무작위에 가깝던 성능이 특정 규모를 넘어서면 갑자기 크게 향상되는 패턴이 다수의 태스크에서 반복적으로 관찰됐다.

창발이란 무엇인가

과학에서 창발(Emergence)은 개별 부분에서는 보이지 않는 속성이 전체 시스템에서 나타나는 현상을 말한다. 개미 한 마리는 복잡한 건축물을 만들 줄 모르지만, 수백만 마리의 집단은 정교한 개미집을 만든다. 물 분자 하나는 젖지 않지만, 수많은 물 분자는 액체 상태를 이룬다.

LLM의 창발적 능력은 이와 유사하다. 파라미터 수나 학습 토큰 수를 점진적으로 늘려가면 대부분의 능력은 서서히 향상된다. 그런데 특정 능력들은 급격한 변곡점이 있어서, 임계 규모 이전에는 거의 무작위 수준이다가 임계 규모를 넘으면 갑자기 높은 정확도로 수행할 수 있게 된다.

창발적 능력 예시

핵심 창발 능력들

Chain-of-Thought (CoT) 추론

가장 유명한 창발 능력이다. 작은 모델에게 “먼저 단계별로 생각해보겠습니다”라는 프롬프트를 줘도 실질적인 효과가 없다. 추론 능력 자체가 없기 때문이다. 그런데 약 100B 파라미터 규모를 넘어서면, 같은 프롬프트가 극적인 성능 향상을 만든다.

# 모델 크기별 산술 능력 평가 예시
def evaluate_arithmetic(model, num_samples=100):
    correct = 0
    for _ in range(num_samples):
        a, b = random.randint(100, 999), random.randint(100, 999)
        prompt = f"{a} + {b} = ?"
        answer = model.generate(prompt)
        if str(a + b) in answer:
            correct += 1
    return correct / num_samples

# 결과: 7B 미만 모델 ~5% 정확도
# 결과: 13B+ 모델 ~80% 정확도 (창발)

CoT를 가능하게 하는 정확한 이유는 아직 완전히 이해되지 않았다. 가설 중 하나는 충분히 큰 모델이 다단계 문제 해결의 패턴을 학습 데이터에서 충분히 관찰한 뒤, 그 패턴을 유추할 수 있게 된다는 것이다.

다자릿수 산술

3자리 숫자의 덧셈처럼 단순해 보이는 작업도 소규모 모델에서는 거의 불가능하다. 이유는 단순히 “계산”을 못 하는 것이 아니라, 자릿수 올림(carry)과 같은 중간 상태를 추적하는 데 필요한 내부 연산 능력이 없기 때문이다.

약 13B 파라미터를 넘으면 이 능력이 갑자기 나타난다. 7B 모델의 정확도가 약 5%라면, 13B 모델은 80%에 달한다. 그 사이에 점진적 향상이 아니라 계단식 도약이 있다.

언어 간 번역 (학습 데이터에 없는 언어 쌍)

GPT-4 같은 대형 모델은 학습 데이터에 직접적인 번역 쌍이 거의 없는 언어 조합(예: 카탈루냐어-웨일스어)도 합리적으로 번역할 수 있다. 소규모 모델은 이것이 불가능하다. 이는 모델이 단순한 번역 패턴 암기가 아니라, 언어의 추상적 구조를 학습했음을 시사한다.

임계값 현상

창발 임계값 시각화

창발적 능력의 가장 놀라운 특징은 임계값의 갑작스러움이다. 손실 곡선은 완만하게 감소하는데, 특정 능력의 정확도는 계단처럼 급격히 향상된다. 이 패턴은 여러 태스크에서 반복적으로 관찰됐다:

1B → 7B: 단어 재배열, 간단한 상식 추론
7B → 13B: 다자릿수 산술, 코드 생성
13B → 50B: 복잡한 지시 따르기, 다단계 추론
50B → 100B+: Chain-of-Thought, 추상적 유추

이 임계값들은 절대적이지 않다. 학습 데이터의 품질과 구성, 파인튜닝 방식, 프롬프트 설계에 따라 달라진다. Llama 3 8B는 이전 세대 70B 모델보다 많은 능력에서 우수하다.

논쟁: 진짜 창발인가, 측정 방식의 문제인가

2023년 Schaeffer et al.의 논문은 창발적 능력 현상에 근본적인 의문을 제기했다. 핵심 주장: 창발처럼 보이는 현상이 사실은 비선형적인 평가 지표 선택의 결과일 수 있다.

예를 들어, 5자리 덧셈의 정확도를 “완전히 맞으면 1, 틀리면 0”(Exact Match)으로 측정하면 계단식 패턴이 나온다. 그러나 “몇 자리를 맞췄는가”(Partial Credit)로 측정하면 부드럽게 향상되는 곡선이 나타난다. 즉, 능력은 점진적으로 발전하지만, 이진적 측정 방식이 계단처럼 보이게 한다는 것이다.

이 논쟁은 아직 결론이 나지 않았다. 일부 창발 현상은 측정 방식으로 설명되지만, 다른 현상들(특히 CoT)은 진정한 질적 변화로 보인다. 진실은 아마 양쪽 모두를 포함할 것이다.

# 측정 방식에 따른 다른 결론
def evaluate_exact_match(model, problems):
    """완전 일치만 인정 - 계단형 패턴"""
    return sum(
        1 for p in problems
        if model.generate(p["question"]).strip() == str(p["answer"])
    ) / len(problems)

def evaluate_partial_credit(model, problems):
    """부분 점수 인정 - 부드러운 곡선"""
    total_score = 0
    for p in problems:
        response = model.generate(p["question"])
        answer_str = str(p["answer"])
        response_str = response.strip()
        # 몇 자리를 맞췄는가
        matching_digits = sum(
            a == b
            for a, b in zip(reversed(answer_str), reversed(response_str))
        )
        total_score += matching_digits / len(answer_str)
    return total_score / len(problems)

# 같은 모델, 같은 데이터, 다른 측정 방식 → 다른 결론

예측 불가능성과 AI 안전

창발적 능력이 AI 안전 연구자들에게 특히 우려되는 이유는 예측 불가능성 때문이다.

스케일링 법칙으로 손실 감소는 예측할 수 있다. 그러나 어떤 새로운 능력이 어느 규모에서 갑자기 나타날지는 사전에 알 수 없다. 유용한 능력(CoT, 코드 생성)뿐만 아니라, 잠재적으로 위험한 능력(정교한 설득, 사이버 공격 지원)도 갑자기 나타날 수 있다.

이 예측 불가능성은 AI 개발자들에게 중요한 질문을 제기한다: 우리는 다음에 무엇이 창발할지 알고 있는가? 모르고 있다면, 어떻게 안전하게 준비할 수 있는가?

이를 위한 연구 방향들:

사전 평가(Pre-deployment Evaluation): 출시 전 광범위한 능력 평가. Anthropic의 “Responsible Scaling Policy”와 같은 프레임워크는 특정 위험 능력이 창발되기 전에 안전 조치를 마련할 것을 요구한다.

메카니스틱 해석 가능성(Mechanistic Interpretability): 모델 내부에서 특정 능력이 어떻게 구현되는지 이해해 창발을 사전에 탐지하려는 연구.

점진적 공개: 새로운 능력이 나타났을 때 연구자들이 먼저 평가한 뒤 공개하는 방식으로 위험을 관리.

창발과 미래

창발적 능력은 LLM 연구의 핵심 미스터리다. 우리는 여전히 “왜 특정 능력이 특정 규모에서 나타나는가?”를 완전히 이해하지 못한다. 하지만 이 현상이 시사하는 바는 분명하다: LLM의 발전은 단순한 “더 좋은 텍스트 예측”이 아니라, 진정한 의미에서 새로운 능력의 등장이다.

다음 글에서는 이러한 능력들이 실제로 어떻게 작동하는지를 결정하는 또 다른 핵심 요소인 컨텍스트 윈도우—모델이 한 번에 얼마나 많은 정보를 처리할 수 있는가—를 다룬다.

지난 글: 스케일링 법칙: 더 크게, 더 많이, 더 강하게

다음 글: 컨텍스트 윈도우: LLM의 작업 메모리

읽어주셔서 감사합니다. 😊