'LLM Pruning' 태그의 글 목록

LLM 프루닝 완전 정리 — 모델 크기 40% 줄이면서 성능 유지하는 법

LLM을 로컬에서 돌리거나 서버에 배포할 때 가장 큰 문제는 크기예요.Llama 3.1 70B: 140GB VRAM 필요 → A100 2장 이상Llama 3.1 8B: 16GB VRAM 필요 → RTX 4080 1장근데 70B 성능이 필요하면?→ 프루닝으로 70B를 40~50B로 줄이면 성능은 거의 유지하면서 VRAM 40% 절약프루닝은 모델에서 중요도가 낮은 가중치를 제거하는 기술이에요.왜 프루닝이 가능한가LLM의 파라미터 전부가 실제로 중요한 건 아니에요.연구 결과:- LLM 가중치의 40~60%는 거의 활성화 안 됨- 특정 Attention Head는 제거해도 성능 변화 거의 없음- 일부 FFN 레이어는 중복된 정보를 처리함→ 이런 불필요한 부분을 제거해도 모델이 대부분의 능력을 유지함프..

LLM 2026.04.14

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

CELL AI DEVLOG

LLM Pruning 1

티스토리툴바