본문 바로가기

반응형

전체 글

LLM as a Judge 완전정리 1편 — 왜 기존 평가 지표는 죽었고, 무엇이 그 자리를 차지했나 2023년 6월, UC Berkeley의 Lianmin Zheng과 동료들이 논문 하나를 냅니다. GPT-4를 판사로 써서 LLM 응답을 평가했더니, 인간 전문가 평가자들과 85% 일치했다는 내용이었습니다. 인간끼리의 일치율(81%)보다도 높았습니다. 이 한 수치가 평가 패러다임을 바꿨습니다. BLEU 점수로 돌아가던 평가 파이프라인들이 LLM-as-a-Judge로 마이그레이션을 시작했습니다. 그런데 "LLM이 LLM을 평가한다"는 게 정확히 무슨 의미인지, 세 가지 패러다임 중 언제 어떤 것을 써야 하는지는 잘 정리되지 않았습니다. 1편에서는 기존 지표가 왜 무너졌는지, 그리고 세 가지 평가 패러다임 각각의 원리와 트레이드오프를 해부합니다. 1편이 다루는 것 → BLEU·ROUGE·BERTScore의 .. 더보기
WebMCP 3편: Agentic SEO — 에이전트 시대에 웹사이트는 무엇이 달라져야 하나 2010년대 초, 모바일 검색 트래픽이 올라오기 시작할 때 먼저 반응형 웹을 준비한 사이트는 이후 몇 년간 유리한 고지를 점했습니다. WebMCP는 그 분기점과 닮아 있습니다. SEO 전문가 Dan Petrovic은 WebMCP를 "구조화 데이터 이후 기술 SEO의 가장 큰 변화"라고 불렀습니다. 구조화 데이터가 "이 페이지가 무엇인지"를 AI에게 알렸다면, WebMCP는 "이 페이지에서 무엇을 할 수 있는지"를 알립니다. SEO → GEO → AEO로 이어지는 흐름의 끝에서, 웹사이트 전략의 기준이 어떻게 바뀌는지 실무 관점으로 정리했습니다.이 포스트 한 줄 요약 → SEO(검색 노출) → GEO(AI 인용) → AEO(에이전트 실행)로 최적화 패러다임 진화 중 → 구조화 데이터: "이 상품은 10만원.. 더보기
브라우저가 에이전트를 위한 API 레이어가 된다 — WebMCP 1편: 표준의 탄생 AI 에이전트가 웹을 사용하는 방식은 지금까지 이랬습니다. 화면을 캡처하고, DOM을 파싱하고, 버튼이 어디 있을지 추측하고, 클릭하고, 다시 기다립니다. 느리고, 깨지기 쉽고, 디자이너가 클래스 하나만 바꿔도 망가집니다. 2026년 5월 19일 Google I/O에서 공개된 **WebMCP(Web Model Context Protocol)**는 이 구조를 근본부터 바꾸려는 시도입니다. 웹사이트가 에이전트에게 "이렇게 써달라"고 직접 말할 수 있는 표준입니다. Chrome 149 Origin Trial이 6월 2일 열리고, Microsoft가 공동 저자로 참여했으며, 이미 Expedia를 포함한 글로벌 브랜드가 실험 중입니다. 무엇이 왜 등장했는지, 어떤 구조이고, 어디까지 왔는지 정리했습니다.이 포스트.. 더보기
에이전트 코드 다 짤 필요 없습니다 — Managed Agents vs 직접 오케스트레이션 실전 비교 에이전트를 만들려면 LangGraph 그래프를 설계하고, 샌드박스를 프로비저닝하고, 에이전트 루프를 유지하고, 상태를 관리해야 한다 — 2026년 5월 18일까지는 맞는 말이었습니다. 5월 19일 Google I/O에서 Gemini API Managed Agents가 나온 다음부터는 달라졌습니다. API 호출 한 번으로 격리된 Linux 샌드박스에서 에이전트를 실행하고, 코드 실행·웹 검색·파일 관리를 전부 처리합니다. AGENTS.md와 SKILL.md가 오케스트레이션 코드를 대체합니다. 그렇다면 LangGraph 같은 직접 오케스트레이션은 이제 필요 없는 건가요? 언제 무엇을 쓸지 기준을 정리했습니다.이 포스트 한 줄 요약 → Managed Agents: 단일 API 호출로 격리 샌드박스 + 에이전트.. 더보기
Opus 4.7의 1/10 비용으로 동급 성능이 가능한가 — Cursor Composer 2.5 실전 분석 "같은 벤치마크, 10분의 1 비용." Cursor가 2026년 5월 18일 공개한 Composer 2.5의 핵심 주장입니다. 1조 파라미터 규모 MoE 베이스 모델에 자체 강화학습을 적층해, Claude Opus 4.7·GPT-5.5와 코딩 벤치마크에서 대등한 수준을 토큰당 $0.50에 달성했다고 밝혔습니다. 가능한 이야기일까요? 아키텍처부터 실제 사용 패턴, 벤더 벤치마크의 한계, 그리고 다음 세대 로드맵까지 실무 기준으로 풀었습니다.이 포스트 한 줄 요약 → 출시일: 2026년 5월 18일 (Cursor IDE 내 기본 탑재) → 베이스 모델: Moonshot AI Kimi K2.5 (1.04T 파라미터, 32B 활성 MoE) → 학습: Composer 2 대비 합성 태스크 25배, 타깃 텍스트 피.. 더보기
GitHub Copilot이 6월 1일부터 완전히 달라집니다 — AI Credit 과금 전환 완벽 분석 월 구독료를 냈는데 갑자기 "크레딧이 부족합니다"가 뜬다면 어떻게 될까요? 2026년 6월 1일, GitHub Copilot이 기존 요청(Request) 기반 과금을 완전히 버리고 토큰 소비량 기반의 AI Credit 시스템으로 전환합니다. 구독료는 그대로인데 과금 구조가 통째로 바뀝니다. 무엇이, 왜, 어떻게 달라지는지 실무 기준으로 정리했습니다.요약GitHub Copilot이 6월 1일부터 PRU 방식을 버리고 AI Credit 시스템으로 전환합니다. 1 AI Credit은 $0.01이며, 코드 자동완성은 무제한으로 유지되지만 Chat·Agent Mode·Code Review는 토큰 소비량에 따라 크레딧이 차감됩니다. Claude Opus 4.7 실효 비용은 기존 대비 3.6~6배 급등하며, 캐시 토.. 더보기
K8s AI 워크로드 3편—KEDA 스케일링과 멀티테넌시, HPA가 LLM에 왜 안 되는지부터 CPU 40%에 스케일 아웃 트리거 맞춰놨는데 추론 큐가 쌓이고 있습니다. LLM은 CPU를 안 씁니다. GPU를 씁니다. 그리고 GPU는 뜨는 순간 VRAM을 다 먹습니다. 기본 HPA로 LLM 스케일링 하려는 건 처음부터 틀렸습니다.📌 핵심 요약→ HPA CPU/메모리 기반 스케일링은 LLM에 무의미 — GPU bound 워크로드→ KEDA: Prometheus 쿼리로 추론 큐 깊이·TTFT·KV 캐시로 스케일링 트리거→ vLLM 핵심 메트릭 3종: num_requests_waiting / gpu_cache_usage_perc / time_to_first_token→ 배치 추론: Job + parallelism으로 병렬 처리, CronJob으로 야간 스케줄→ Kueue: 팀 간 GPU 공정 배분 표.. 더보기
K8s AI 워크로드 2편—LLM 추론 서버 배포, vLLM·TGI·Triton 실전 Deployment 완전 가이드 GPU 노드 세팅이 끝났으면 이제 LLM을 올릴 차례입니다. 근데 일반 웹 컨테이너 올리듯 하면 90초 만에 OOMKilled 납니다. 모델이 뜨는 데만 20분인데 readinessProbe가 30초 만에 죽입니다. AI 추론 서버는 시작부터 다르게 접근해야 합니다.📌 핵심 요약→ 2026 기준 vLLM = 프로덕션 표준 (Meta·Mistral·Cohere·IBM 모두 사용)→ TGI는 2025년 12월 유지보수 모드 전환 — 신규 배포 권장 안 함→ Triton = LLM 엔진 아님, TensorRT-LLM 백엔드 필요한 플랫폼→ 모델 가중치 PVC 캐싱 필수 — 없으면 재시작마다 140GB 다운로드→ startupProbe → readinessProbe → livenessProbe 3단계 분리 —.. 더보기

반응형