GPT-4급 성능을 원하지만 H100 서버 비용은 감당 못해요. 이 모순을 해결하는 게 지식 증류예요."큰 모델(선생)이 배운 걸 작은 모델(학생)한테 가르친다."DeepSeek-R1-Distill-Llama-8B가 이 방식으로 만들어졌어요. DeepSeek R1(671B)의 추론 능력을 8B 모델에 이식한 거예요.핵심 개념 — 소프트 레이블이 왜 강력한가일반 학습은 정답만 알려줘요.하드 레이블: "답은 A야" (0 또는 1)소프트 레이블: "A가 70%, B가 20%, C가 10%"→ A가 맞지만 B와도 가까움을 알 수 있음→ 클래스 간 관계 정보가 담겨 있음큰 모델의 소프트 레이블(로짓 분포)에는 단순 정답보다 훨씬 풍부한 정보가 있어요. 학생 모델은 이걸 배워서 실제보다 훨씬 강해져요.증류의 3가지..