LLM을 로컬에서 돌리거나 서버에 배포할 때 가장 큰 문제는 크기예요.Llama 3.1 70B: 140GB VRAM 필요 → A100 2장 이상Llama 3.1 8B: 16GB VRAM 필요 → RTX 4080 1장근데 70B 성능이 필요하면?→ 프루닝으로 70B를 40~50B로 줄이면 성능은 거의 유지하면서 VRAM 40% 절약프루닝은 모델에서 중요도가 낮은 가중치를 제거하는 기술이에요.왜 프루닝이 가능한가LLM의 파라미터 전부가 실제로 중요한 건 아니에요.연구 결과:- LLM 가중치의 40~60%는 거의 활성화 안 됨- 특정 Attention Head는 제거해도 성능 변화 거의 없음- 일부 FFN 레이어는 중복된 정보를 처리함→ 이런 불필요한 부분을 제거해도 모델이 대부분의 능력을 유지함프..