반응형

TurboQuant 3

TurboQuant 심화 가이드 — PolarQuant + QJL 동작 원리부터 vLLM 실전 배포까지

TurboQuant 소개 글은 이미 나왔습니다. 이 글은 그 다음 단계입니다. 알고리즘 내부 구조, 기존 KV 캐시 압축 기법과의 정확한 비교, 그리고 공식 코드 전에 커뮤니티 구현체로 지금 당장 프로덕션에 배포하는 방법까지 다룹니다.[핵심 요약 — 심화편]→ TurboQuant = PolarQuant(키 압축) + QJL(값 압축) 두 알고리즘의 조합→ PolarQuant: 키 벡터를 크기(scalar) + 방향(unit hypersphere)으로 분해 후 압축→ QJL: Johnson-Lindenstrauss 변환 기반 값 벡터 압축→ 핵심 혁신: Randomized Hadamard Transform으로 이상치 분포 제거 후 압축→ 압축 비트: TQ3(3bit, 6배) / TQ4(4bit, 3.8배)..

AI 개발 2026.05.19

Mac TurboQuant 실전 가이드 — 쓰기 전vs후 비교

Google이 TurboQuant 논문을 ICLR 2026에서 발표했어요. 근데 공식 코드는 아직 없어요. Q2 2026 출시 예정이에요.그런데 논문 공개 48시간 만에 커뮤니티가 PyTorch 구현체를 만들어버렸고, 2주 만에 Mac에서 104B 모델을 돌리는 데까지 왔어요.그중 Apple Silicon에 가장 최적화된 게 turboquant_plus예요. TheTom이라는 개발자가 만든 커뮤니티 구현체로, MLX 백엔드 지원, Sparse V 최적화, 레이어 보호 기능까지 추가된 버전이에요. 공식 구현체가 나오기 전까지 Mac 사용자에게 가장 실용적인 선택이에요.설치git clone https://github.com/TheTom/turboquant_pluscd turboquant_pluspip ins..

LLM 2026.04.13

구글의 딥시크: 터보퀀트(TurboQuant) 완전 분석 — 메모리 6배 절감이 반도체 주가를 흔든 이유

3월 24일, 구글 리서치가 조용히 블로그 하나를 올렸어요. 그런데 이틀 뒤 삼성전자가 4.7% 떨어지고, SK하이닉스가 6.2% 급락하고, 마이크론이 3% 빠졌습니다.논문 하나가 글로벌 반도체 시장을 흔든 거예요.이번 글에서는 터보퀀트가 정확히 뭔지, 왜 주가가 떨어졌는지, 그리고 이게 진짜 위기인지 아닌지까지 정리해 드릴게요.터보퀀트가 뭔가요 — 쉽게 설명KV 캐시가 뭔지부터LLM이 대화할 때 이전에 처리한 내용을 다시 계산하지 않으려고 임시로 저장해두는 공간이 있어요. 이걸 KV 캐시(Key-Value Cache) 라고 해요.쉽게 비유하면 이렇게요.친구와 1시간 대화했다고 해봐요. 새로운 말을 할 때마다 "우리가 1시간 동안 나눈 대화 전체"를 다시 읽어야 한다면 엄청 느리겠죠. KV 캐시는 그 대..

LLM 2026.03.27
반응형