LLM-as-Judge: AI가 AI를 평가하다

지난 글에서 인간 평가의 설계 원리를 살펴보았다. 인간 평가는 신뢰할 수 있지만 느리고 비싸다는 한계가 있다. 모델을 하루에도 수십 번 업데이트하는 현대적 LLM 개발 사이클에서 매번 사람을 동원해 평가하는 것은 현실적으로 불가능하다.

이 문제를 해결하기 위해 등장한 아이디어가 LLM-as-Judge다. 강력한 LLM 자체를 심사위원으로 세워 다른 모델의 응답을 평가하게 하는 방식이다. 2023년 이후 MT-Bench, Chatbot Arena, AlpacaEval 등 주요 벤치마크가 이 접근을 채택하면서 LLM 평가의 표준으로 자리 잡고 있다.

LLM-as-Judge란 무엇인가

LLM-as-Judge는 하나의 LLM(Judge)이 다른 LLM의 출력을 채점하는 프레임워크다. 핵심 아이디어는 간단하다. 평가 기준(루브릭), 사용자 질문, 모델 응답을 Judge LLM에게 프롬프트로 전달하면 Judge는 점수와 근거를 반환한다.

LLM-as-Judge 평가 흐름

이 방식이 주목받는 이유는 세 가지다.

속도: 수백 개의 샘플을 몇 분 안에 평가할 수 있다. 인간 평가 대비 100배 이상 빠르다.
비용: API 비용은 저렴하다. 1,000건 평가에 수 달러 수준이다.
재현성: 동일한 프롬프트와 모델로 언제든 동일한 평가를 재현할 수 있다.

물론 Judge LLM 자체의 편향과 한계가 평가 결과에 그대로 반영된다는 치명적인 단점도 존재한다. 이 점은 뒤에서 자세히 다룬다.

세 가지 평가 방식

LLM-as-Judge에는 크게 세 가지 평가 패러다임이 있다. 각각의 특성과 적합한 상황이 다르다.

LLM-as-Judge 평가 방식 비교

Pointwise: 단일 응답 절대 채점

응답 하나를 독립적으로 평가해 1–10점(또는 1–5점)의 절대 점수를 부여하는 방식이다.

언제 쓰나: 기준이 명확하고 다른 응답과 직접 비교할 필요가 없을 때. 예를 들어 “이 응답이 사실적으로 정확한가?” “문법적 오류가 있는가?” 같은 질문에 적합하다.

장점: 응답을 병렬로 독립 평가할 수 있어 확장성이 뛰어나다. N개의 응답을 동시에 처리할 수 있다.

단점: 모델마다 점수 기준이 달라질 수 있다. GPT-4가 7점을 주는 응답에 Claude는 8점을 줄 수 있다. 절대 점수의 분포가 Judge마다 다르다.

Pairwise: 두 응답 상대 비교

응답 A와 B를 동시에 Judge에게 제시해 어느 쪽이 더 우수한지 선택하게 하는 방식이다. “A가 낫다 / B가 낫다 / 비슷하다” 세 가지 중 하나를 고른다.

언제 쓰나: 두 모델 버전 간 우열을 가릴 때. 또는 인간 선호도와의 상관관계가 중요할 때. Chatbot Arena와 MT-Bench가 이 방식을 활용한다.

장점: 인간 판단과 상관관계가 높다. 미묘한 질 차이도 포착할 수 있다. 절대 기준 없이도 상대적 품질을 잘 반영한다.

단점: N개의 모델을 비교하려면 O(N²) 쌍이 필요하다. 5개 모델이면 10쌍, 10개 모델이면 45쌍이다. 또한 응답 제시 순서(A가 먼저냐 B가 먼저냐)에 따라 결과가 달라지는 순서 편향(position bias) 이 존재한다.

Reference-based: 골든 정답 참조 채점

사전에 작성된 정답(golden reference)과 모델 응답을 비교해 점수를 매기는 방식이다.

언제 쓰나: 수학 문제 풀이, 번역, 요약처럼 정답이 명확히 존재하는 태스크에 적합하다. 코딩 문제에서 정확한 출력이 요구될 때도 활용된다.

장점: 기준이 객관적이고 재현 가능하다. Judge의 주관이 개입할 여지가 줄어든다.

단점: 레퍼런스 구축 자체에 상당한 시간과 비용이 든다. 창의적 글쓰기처럼 정답이 하나가 아닌 태스크에는 적용하기 어렵다.

실전 프롬프트 설계

좋은 Judge 프롬프트는 다음 세 가지를 명확히 지정해야 한다.

Judge의 역할 정의: “당신은 AI 응답을 평가하는 전문 평가자입니다”
평가 기준 (루브릭): 무엇을 기준으로 채점할지 구체적으로 명시
출력 형식: 점수와 근거를 어떤 포맷으로 반환할지

아래는 Anthropic SDK를 활용한 Pointwise Judge 구현 예시다.

import anthropic

client = anthropic.Anthropic()

def llm_judge_pointwise(question: str, response: str, criteria: str) -> dict:
    prompt = f"""당신은 AI 응답을 평가하는 전문 평가자입니다.

질문: {question}
응답: {response}
평가 기준: {criteria}

위 응답을 1-10점으로 채점하고 근거를 설명하세요.
출력 형식:
점수: [1-10]
근거: [상세 설명]"""

    message = client.messages.create(
        model="claude-opus-4-7",
        max_tokens=512,
        messages=[{"role": "user", "content": prompt}]
    )
    return {"raw": message.content[0].text}

Pairwise 평가의 경우 프롬프트에 두 응답을 모두 포함하고, Judge에게 “A가 낫다 / B가 낫다 / 동점”을 선택하게 한다. 이때 A-B 순서를 바꿔 두 번 평가한 뒤 결과가 일치하는 경우만 신뢰하는 swap 검증 기법을 쓰면 순서 편향을 크게 줄일 수 있다.

편향과 한계

LLM-as-Judge를 실전에 적용하기 전에 반드시 이해해야 할 편향들이 있다.

Position Bias (순서 편향)

Pairwise 평가에서 Judge는 첫 번째로 제시된 응답을 선호하는 경향이 있다. Wang et al.(2023)의 연구에 따르면 GPT-4는 A-B 순서와 B-A 순서에서 서로 다른 결론을 내리는 빈도가 무시할 수 없는 수준이다. 이는 Judge가 실제 품질보다 제시 순서에 의존한다는 의미다.

Verbosity Bias (장황함 편향)

Judge LLM은 더 길고 상세한 응답을 선호하는 경향이 있다. 짧지만 정확한 응답보다 장황하지만 덜 정확한 응답에 더 높은 점수를 주는 경우가 많다. 특히 GPT-4가 Judge일 때 이 편향이 두드러진다.

Self-Enhancement Bias (자기 편향)

특정 회사의 모델이 Judge 역할을 할 때 동일 회사의 다른 모델 응답을 더 높게 평가하는 경향이 있다. GPT-4가 Judge면 GPT 계열 응답에 유리하고, Claude가 Judge면 Claude 계열 응답에 유리할 수 있다.

Format Bias (형식 편향)

마크다운 헤더, 불릿 포인트, 코드 블록 등의 형식을 갖춘 응답을 Judge가 더 선호하는 경향이 있다. 실제 내용의 질과 무관하게 형식 때문에 점수가 달라질 수 있다.

편향 완화 전략

이러한 편향을 완전히 제거하기는 어렵지만, 몇 가지 전략으로 크게 줄일 수 있다.

1. Swap 검증 (순서 편향 완화)
A-B, B-A 두 가지 순서로 각각 평가한 뒤, 결과가 불일치할 경우 “동점”으로 처리하거나 해당 샘플을 제외한다.

2. 다중 Judge 앙상블 (자기 편향 완화)
GPT-4, Claude, Gemini 등 서로 다른 회사의 모델을 Judge로 사용해 결과를 평균낸다. 특정 회사 모델에 대한 자기 편향이 상쇄된다.

3. Chain-of-Thought 강제 (일관성 향상)
Judge에게 점수를 먼저 출력하지 말고 근거를 먼저 서술한 뒤 점수를 내리도록 프롬프트를 설계한다. 점수가 결론이 아닌 논증의 결과가 되도록 한다.

4. 루브릭 세분화 (척도 일관성 향상)
“1–10점”처럼 넓은 척도보다 “각 항목별 0–2점” 같은 세분화된 루브릭을 제공하면 Judge의 점수 분포가 안정적으로 유지된다.

5. 인간 검증 샘플링
전체 평가의 5–10%는 인간이 직접 검토해 Judge의 결과와 일치하는지 주기적으로 확인한다. Judge의 신뢰도가 임계값 아래로 떨어지면 프롬프트를 수정하거나 모델을 교체한다.

마치며

LLM-as-Judge는 완벽한 평가 도구가 아니다. 하지만 빠른 개발 사이클에서 인간 평가를 완전히 대체하는 것이 아닌, 보완하고 가속화하는 도구로서 매우 강력하다. 편향을 인식하고 완화 전략을 적용한다면, 실용적이고 신뢰할 수 있는 자동 평가 파이프라인을 구축할 수 있다.

다음 글에서는 LLM-as-Judge의 Pairwise 결과를 체계적으로 집계해 모델 순위를 도출하는 ELO 레이팅 시스템을 살펴본다.

지난 글: LLM 인간 평가: 신뢰할 수 있는 정성 평가 설계하기
다음 글: ELO 레이팅으로 LLM 순위 매기기

읽어주셔서 감사합니다. 😊