분류 전체보기 썸네일형 리스트형 하네스 엔지니어링(Harness Engineering) 완전 정리 — AI가 좋은 코드를 짜게 만드는 법 2026년 3월 31일, Anthropic 엔지니어가 엄청난 실수를 했어요.npm 패키지 업데이트 하나에 Claude Code 소스코드 50만 줄이 통째로 들어간 거예요. 몇 시간 만에 GitHub 스타 5만 개. 개발자들이 회의를 취소하고 달려들었어요.근데 사람들이 주목한 건 모델이 아니었어요."모델이 아니라 모델을 감싼 구조가 진짜였다."이게 하네스 엔지니어링(Harness Engineering)이에요.하네스가 뭔가에이전트 = 모델 + 하네스모델: Claude, GPT, Gemini 등 LLM하네스: 모델 외 나머지 전부 → 툴 실행, 퍼미션, 컨텍스트 관리, 메모리, 피드백 루프, 에러 복구...Claude Code 유출로 밝혀진 것들이에요.퍼미션 게이트 달린 툴 4.. 더보기 Anthropic이 가장 강력한 모델을 공개하지 않은 이유 — Mythos Preview 완전 분석 2026년 4월 7일, Anthropic이 사상 처음으로 출시하지 않을 모델의 244페이지 시스템 카드를 공개했어요.모델 이름은 Claude Mythos Preview.공개하지 않는 이유는 단 하나예요."이 모델은 해킹을 할 수 있다."Mythos가 발견한 것들Anthropic 레드팀이 지난 몇 주간 Mythos Preview를 돌린 결과예요.발견한 것:모든 주요 운영체제(Windows, macOS, Linux, FreeBSD 등)에서 제로데이 취약점 발견모든 주요 웹브라우저에서 제로데이 취약점 발견발견된 취약점 수: 수천 개, 다수가 Critical 등급발견된 취약점의 99% 이상이 아직 패치 안 됨대표 사례 — 17년된 FreeBSD 취약점CVE-2026-4747:- FreeBSD NFS에 존재하던 .. 더보기 Claude Managed Agents 완전 분석 — 에이전트 배포가 며칠 만에 가능해진 이유 2026년 4월 8일, Anthropic이 공개 베타로 출시했어요.한 줄 요약:"에이전트 만드는 데 수개월 걸리던 인프라 작업을 Anthropic이 대신 다 해줄게."문제 — 에이전트 배포가 왜 이렇게 힘들었나지금까지 AI 에이전트를 프로덕션에 배포하려면 에이전트 자체 외에도 온갖 인프라를 직접 구축해야 했어요.기존 에이전트 배포:✅ 에이전트 로직 개발❌ 보안 샌드박스 컨테이너 설정❌ 세션 상태 관리 (중간에 크래시나면 데이터 날아감)❌ 툴 오케스트레이션❌ 퍼미션/인증 시스템❌ 모니터링/트레이싱❌ 스케일링 인프라→ 개발 기간: 수개월특히 기존 구조는 세션 + 하네스 + 샌드박스가 하나의 컨테이너에 묶여 있었어요. 크래시 한 번이면 세션 데이터 전체가 날아갔고, 디버깅하려면 사용자 데이터가 담긴 컨테이너에.. 더보기 Meta Muse Spark 발표 — Llama 이후 독자 모델 2026년 4월 8일, Meta가 조용히 AI 역사를 다시 썼어요.Muse Spark — Meta Superintelligence Labs의 첫 번째 모델이에요. 코드명은 "아보카도(Avocado)". 개발 기간은 딱 9개월이에요.그리고 이 발표는 단순한 모델 출시가 아니에요. Meta가 지난 5년간 쌓아온 오픈소스 전략을 사실상 버린다는 선언이에요.왜 Llama를 버렸나Llama 4의 참패2025년 4월, Meta는 Llama 4를 출시했어요. 결과는 처참했어요.개발자 커뮤니티의 반응은 "실망스럽다"였고, ChatGPT나 Claude와 비교해서 성능이 뒤처진다는 평가가 쏟아졌어요. 더 심각한 건 Meta가 벤치마크 조작 의혹까지 받았다는 거예요. 일반 사용자에게 제공한 버전보다 더 좋은 버전으로 벤치마.. 더보기 KV Cache 완전 정리 — PagedAttention vs RadixAttention, SGLang이 빠른 이유 LLM이 토큰을 생성할 때마다 이전 토큰들의 중간 연산 결과를 저장해 두는 게 KV 캐시예요. 없으면 매 토큰마다 처음부터 다시 계산해야 해요.근데 이 KV 캐시를 어떻게 관리하느냐에 따라 성능이 완전히 달라져요. vLLM과 SGLang은 서로 다른 방식으로 이 문제를 풀어요.KV 캐시가 뭔가트랜스포머의 어텐션 레이어는 매 스텝마다 이전 토큰들의 Key/Value 벡터를 참조해요.1번째 토큰 생성: [토큰1] KV 계산2번째 토큰 생성: [토큰1, 토큰2] — 토큰1 KV 재계산하면 낭비!KV 캐시:1번째 토큰 생성: [토큰1] KV 계산 → 저장2번째 토큰 생성: 저장된 토큰1 KV 재사용 + 토큰2 KV만 계산→ 계산량 대폭 감소문제는 KV 캐시가 메모리를 많이 먹는다는 거예요.Llama-3.1-8B.. 더보기 LLM 지식 증류(Knowledge Distillation) 완전 정리 — 큰 모델의 지식을 작은 모델에 이식하는 법 GPT-4급 성능을 원하지만 H100 서버 비용은 감당 못해요. 이 모순을 해결하는 게 지식 증류예요."큰 모델(선생)이 배운 걸 작은 모델(학생)한테 가르친다."DeepSeek-R1-Distill-Llama-8B가 이 방식으로 만들어졌어요. DeepSeek R1(671B)의 추론 능력을 8B 모델에 이식한 거예요.핵심 개념 — 소프트 레이블이 왜 강력한가일반 학습은 정답만 알려줘요.하드 레이블: "답은 A야" (0 또는 1)소프트 레이블: "A가 70%, B가 20%, C가 10%"→ A가 맞지만 B와도 가까움을 알 수 있음→ 클래스 간 관계 정보가 담겨 있음큰 모델의 소프트 레이블(로짓 분포)에는 단순 정답보다 훨씬 풍부한 정보가 있어요. 학생 모델은 이걸 배워서 실제보다 훨씬 강해져요.증류의 3가지.. 더보기 LoRA / QLoRA 완전 가이드 — LLM 파인튜닝을 저렴하게 하는 법 70B 모델을 처음부터 파인튜닝하면 H100 4~8개, 수십만 달러가 필요해요.LoRA/QLoRA를 쓰면 RTX 4090 한 장으로, 몇 시간 안에, $10 정도 비용으로 동일한 작업이 가능해요.왜 풀 파인튜닝 대신 LoRA인가LLM을 풀 파인튜닝하면 수십억 개의 파라미터를 전부 업데이트해요. 메모리와 연산이 엄청나게 필요하죠.LoRA의 핵심 아이디어는 이래요."모델을 업데이트할 때 변화량 자체가 저랭크(low-rank)다."즉, 수십억 개 파라미터를 다 바꾸는 게 아니라 변화량을 표현하는 작은 행렬 2개만 학습해요.풀 파인튜닝:W (d×d 행렬 전체) 업데이트 → 수백만 GBLoRA:W' = W + BAA: (r×d), B: (d×r) — r은 보통 8~64→ 학습 파라미터가 0.1~1%로 줄어듦기존 .. 더보기 LLM 양자화 완전 정리 — FP8, AWQ, GPTQ, GGUF 차이와 선택법 70B 파라미터 모델을 FP16으로 그냥 올리면 GPU 메모리가 140GB 필요해요. H100 두 개가 있어야 겨우 올라가요.양자화(Quantization)는 이 문제를 해결해요.FP16 (기본): 70B 모델 = 140GB VRAM → H100 2개 필요INT8: 70B 모델 = 70GB VRAM → H100 1개로 가능INT4 (4비트): 70B 모델 = 35GB VRAM → A100 1개로 가능근데 양자화 방식이 너무 많아요. FP8, AWQ, GPTQ, GGUF, BitsAndBytes, MXFP4... 뭐가 뭔지 헷갈려요.이번 글에서 각 방식이 어떻게 다르고 언제 써야 하는지 완전 정리해 드릴게요.양자화란 무엇인가LLM의 가중치는 수천억 개의 숫자예요. 기본적.. 더보기 이전 1 ··· 38 39 40 41 42 43 44 ··· 46 다음