AI · ML · DL · LLM, 뭐가 다른가

뉴스에서, 채용 공고에서, 제품 소개에서 AI · ML · DL · LLM 이 네 단어는 거의 매일 등장합니다. 그런데 막상 “이게 어떻게 다른가요?” 하고 물으면 대부분 말이 흐릿해집니다.

이 혼동이 생기는 이유는 단순합니다. 이 네 가지는 서로 다른 개념이 아니라 포함 관계로 이어져 있기 때문입니다. LLM을 이야기하면 자동으로 DL, ML, AI를 모두 이야기하는 셈입니다.

AI · ML · DL · LLM 포함 관계

LLM은 DL이고, DL은 ML이고, ML은 AI입니다. 역은 성립하지 않습니다. 모든 LLM은 AI지만, 모든 AI가 LLM은 아닙니다.

AI — 인공지능 (Artificial Intelligence)

“기계가 스스로 판단하고 행동하도록 만드는 연구 분야 전체”

AI는 특정 기술을 가리키는 말이 아닙니다. 연구 분야 전체를 아우르는 개념입니다. 체스 프로그램, 추천 알고리즘, 자율주행, 얼굴 인식 — 모두 AI입니다. 구현 방법이 무엇이든 “기계가 지능적으로 행동하면” AI입니다.

초기 AI: 규칙 기반 시스템

1950~80년대 AI의 주류는 전문가 시스템(Expert System) 이었습니다. 분야 전문가가 직접 규칙을 작성해 프로그램에 넣는 방식입니다.

# 의료 진단 전문가 시스템의 일부 (실제 이런 식이었습니다)
if 체온 >= 38 and 기침 == True and 근육통 == True:
    return "독감 의심"
elif 체온 >= 38 and 발진 == True:
    return "홍역 의심"
elif 목_통증 == True and 편도_부음 == True:
    return "편도염 의심"
# ... 이런 규칙이 수천 개

논리는 명확하고 설명도 쉽습니다. 그런데 현실 세계를 규칙으로 담으려 하면 벽에 부딪힙니다.

규칙이 수십만 개로 늘어나도 예외 케이스가 계속 나옵니다
새로운 상황이 생기면 사람이 직접 규칙을 추가해야 합니다
규칙들끼리 충돌하거나 모순이 생깁니다
“고양이 사진”을 인식하려면 규칙을 몇 개나 써야 할까요? 사실상 불가능합니다

이 한계를 넘기 위해 등장한 것이 머신러닝입니다.

ML — 머신러닝 (Machine Learning)

“규칙을 직접 코딩하는 대신, 데이터에서 패턴을 스스로 학습하게 하는 방법론”

1990~2000년대에 주류가 된 방식입니다. 접근 방식의 차이를 한 문장으로 정리하면 이렇습니다.

기존 AI: 개발자가 규칙을 만든다 → 규칙으로 예측한다 ML: 데이터를 넣는다 → 알고리즘이 규칙을 찾는다 → 그 규칙으로 예측한다

	규칙 작성자	새 패턴 대응 방법
기존 AI (규칙 기반)	인간 전문가	규칙을 직접 추가
ML	알고리즘	데이터를 추가해 재학습

스팸 필터로 보는 차이

규칙 기반 방식: 개발자가 “광고”, “무료”, “클릭하세요” 같은 단어 목록을 직접 관리합니다. 스패머가 “광 고”처럼 띄어 쓰거나 새로운 표현을 쓰면 개발자가 다시 규칙을 업데이트해야 합니다.

ML 방식: 수십만 개의 스팸/정상 메일을 학습합니다. 알고리즘이 스스로 패턴을 찾아냅니다. 새로운 스팸이 나와도 데이터만 추가하면 됩니다.

대표적인 ML 알고리즘

ML에는 여러 알고리즘이 있습니다. 각자 잘 맞는 문제 유형이 다릅니다.

알고리즘	특징	주요 사용처
결정 트리	질문을 반복해 분류	이진 분류, 해석 필요한 경우
랜덤 포레스트	결정 트리를 여러 개 합산	정형 데이터 분류/예측
SVM	데이터를 가장 잘 나누는 경계선 탐색	텍스트 분류, 이미지 분류
k-최근접 이웃	가장 가까운 k개 데이터로 판단	추천 시스템, 이상 탐지

ML은 강력하지만, 한 가지 전제가 있습니다. 사람이 먼저 어떤 특징(feature)을 볼지 정해줘야 합니다. 집값 예측이라면 “면적, 층수, 위치”를 특징으로 잡는 건 사람의 판단입니다. 이 특징 설계를 잘못하면 아무리 좋은 알고리즘도 성능이 나오지 않습니다.

딥러닝은 이 제약을 없앱니다.

DL — 딥러닝 (Deep Learning)

“인간의 신경망에서 착안한 다층(multi-layer) 구조로 학습하는 ML의 한 방식”

딥러닝과 일반 ML의 가장 큰 차이는 특징 추출 방식입니다.

ML: 사람이 특징을 직접 설계 → 알고리즘이 패턴을 학습
DL: 특징 추출 자체도 네트워크가 학습 → 알고리즘이 패턴을 학습

고양이 사진 인식을 예로 들면, ML 방식은 “귀의 모양, 수염 유무, 눈 색깔” 같은 특징을 사람이 정의해야 합니다. 딥러닝은 수백만 장의 고양이 사진을 주면 스스로 중요한 특징을 찾아냅니다.

딥러닝이 2012년에야 실용화된 이유

이론은 1980년대에 이미 있었습니다. 그런데 2012년 이전까지는 쓸 만하지 않았습니다. 세 가지 조건이 동시에 갖춰진 이후에야 실용화됐습니다.

AI 발전 타임라인

조건	내용	전환점
데이터	인터넷 성장 → 대규모 학습 데이터	ImageNet (1400만 장 이미지 데이터셋, 2009)
연산	GPU 병렬 처리 → 딥러닝 연산에 적합	NVIDIA CUDA (GPU 범용 연산, 2007)
알고리즘	역전파 기법 성숙, 드롭아웃 등	AlexNet (GPU + DL 결합, 2012)

2012년 AlexNet이 이미지 인식 대회에서 기존 방식 대비 오류율을 절반으로 줄이며 딥러닝 시대의 시작을 알렸습니다.

레이어 구조

딥러닝의 핵심은 레이어를 여러 겹 쌓는 것입니다.

딥러닝 레이어 구조

앞 층의 출력이 다음 층의 입력이 됩니다. 층이 깊어질수록 더 추상적인 개념을 표현할 수 있습니다.

이미지 인식의 경우
1층 → 픽셀 밝기 변화, 선과 경계
2층 → 선이 모인 모양, 텍스처
3층 → 눈, 코, 귀 같은 부분 형태
4층 → "고양이"라는 개념

텍스트의 경우
1층 → 개별 글자, 형태소
2층 → 단어 의미
3층 → 문장 맥락
4층 → 의도와 뉘앙스

이것이 “딥(Deep)“러닝에서 Deep이 의미하는 바입니다.

LLM — 대형 언어 모델 (Large Language Model)

“방대한 텍스트 데이터로 학습한, 언어를 다루는 초대형 딥러닝 모델”

GPT, Claude, Gemini, Llama, Mistral 모두 LLM입니다. 클라우드 API로 쓰든, 내 컴퓨터에서 로컬로 직접 돌리든 — 실행 환경은 달라도 모델 분류는 동일합니다.

”Large”가 의미하는 것

LLM에서 Large는 두 가지를 가리킵니다.

항목	규모
파라미터(가중치) 수	수십억 ~ 수조 개
학습 데이터	인터넷 텍스트, 책, 논문 등 수조 개 토큰

비교하자면 GPT-3는 파라미터가 1750억 개입니다. 숫자 하나 저장에 4바이트가 필요하다면, 파라미터만 약 700GB입니다.

LLM의 작동 원리: 다음 토큰 예측

LLM의 핵심 원리는 단 하나입니다.

“다음에 올 토큰(token)을 예측한다”

토큰은 텍스트를 쪼갠 단위입니다. 단어와 비슷하지만 완전히 같지는 않습니다. 예를 들어 “ChatGPT”는 [“Chat”, “G”, “PT”] 세 개의 토큰으로 쪼개질 수 있습니다.

LLM은 앞선 맥락을 보고 가장 그럴듯한 다음 토큰을 반복해서 골라 텍스트를 완성합니다.

입력:  "파이썬에서 리스트를"
       ↓
예측:  "정렬" 41%  ·  "복사" 18%  ·  "삭제" 12%  ·  ...
       ↓ (가장 높은 확률 선택)
선택:  "정렬"

다음 입력: "파이썬에서 리스트를 정렬"
       ↓
예측:  "하려면" 53%  ·  "할" 29%  ·  ...
       ↓
선택:  "하려면"

→ 최종 출력: "파이썬에서 리스트를 정렬하려면 sort()를 사용합니다."

이 단순해 보이는 예측을 수천억 개의 파라미터로, 수조 개의 텍스트로 학습하면 번역, 요약, 코드 작성, 질문 답변까지 가능한 모델이 됩니다.

LLM이 “이해”하는 것처럼 보이는 이유

LLM은 실제로 의미를 “이해”하지 않습니다. 다음 토큰 예측을 극도로 잘 하는 것이 전부입니다.

그런데 이 예측을 잘 하려면 결과적으로 언어의 문법, 사실 관계, 맥락, 뉘앙스를 모두 내부 표현으로 학습하게 됩니다. 그래서 이해하는 것처럼 보입니다.

이 구분이 실무에서 왜 중요한가

개념을 정확히 알면 문제 해결 방향이 달라집니다.

“AI가 틀렸다” 라고 하면, 어떤 종류의 AI인지에 따라 원인이 완전히 다릅니다. 규칙 기반이라면 규칙이 잘못된 것이고, ML이라면 데이터나 특징 설계 문제일 수 있고, LLM이라면 프롬프트 설계나 모델 자체의 한계일 수 있습니다.

“ML을 써야 할까, LLM을 써야 할까” 도 자주 나오는 질문입니다.

상황	적합한 선택
정형 데이터, 수치 예측	전통적 ML (랜덤 포레스트 등)
이미지/음성/비정형 데이터	DL
자유 형식 언어 생성, 이해	LLM
빠른 응답, 저비용 필요	경량 ML 또는 소형 LLM

정리

AI   →  분야 전체.   규칙 기반부터 LLM까지 모두 포함
ML   →  방법론.     데이터에서 규칙을 스스로 학습
DL   →  ML의 하위.  특징 추출까지 스스로 학습하는 다층 신경망
LLM  →  DL의 결과.  언어를 다루는 초대형 모델, 토큰 예측이 전부

이 구분을 알고 나면 앞으로 나오는 개념들이 어디에 위치하는지 자연스럽게 잡힙니다. 다음 글에서는 딥러닝의 기반인 신경망(Neural Network) 구조를 뉴런부터 학습 과정까지 풀어봅니다.

다음 글: AI 역사 — 1956년 다트머스에서 LLM 시대까지

읽어주셔서 감사합니다. 😊