70B 모델을 처음부터 파인튜닝하면 H100 4~8개, 수십만 달러가 필요해요.LoRA/QLoRA를 쓰면 RTX 4090 한 장으로, 몇 시간 안에, $10 정도 비용으로 동일한 작업이 가능해요.왜 풀 파인튜닝 대신 LoRA인가LLM을 풀 파인튜닝하면 수십억 개의 파라미터를 전부 업데이트해요. 메모리와 연산이 엄청나게 필요하죠.LoRA의 핵심 아이디어는 이래요."모델을 업데이트할 때 변화량 자체가 저랭크(low-rank)다."즉, 수십억 개 파라미터를 다 바꾸는 게 아니라 변화량을 표현하는 작은 행렬 2개만 학습해요.풀 파인튜닝:W (d×d 행렬 전체) 업데이트 → 수백만 GBLoRA:W' = W + BAA: (r×d), B: (d×r) — r은 보통 8~64→ 학습 파라미터가 0.1~1%로 줄어듦기존 ..