본문 바로가기

전체 글

(172)

Gemma 4 파인튜닝 Unsloth로 30분에 끝내기 — API 비용 0원, 도메인 특화 모델 GPT-4급 성능을 API 비용 없이. 내 도메인 데이터로 특화된 모델을.Gemma 4는 2026년 4월 2일 Google DeepMind가 출시한 오픈소스 모델이에요. Apache 2.0 라이선스 — 상업적 사용, 재배포, 수정 모두 자유예요.파인튜닝이 필요한 이유:프롬프트 엔지니어링: "항상 JSON으로 응답해줘" → 30% 실패율RAG: 지식 주입엔 좋지만 스타일/형식 제어 어려움파인튜닝: 99% 이상 일관된 출력, 도메인 특화 지식언제 파인튜닝이 답인가:→ 출력 형식이 항상 일정해야 할 때→ 특정 도메인 용어/스타일이 필요할 때→ 프롬프트가 너무 길어서 비용 문제가 될 때→ API 없이 로컬/온프레미스 배포가 필요할 때Unsloth가 뭔가HuggingFace 기본 방식 대비:속도: 2배 빠른 ..

LLM 사설 평가셋 50개 만들고 모델 비교하기 — 벤치마크를 믿지 마세요 48시간마다 새 모델이 나와요. 모두 "SWE-bench 1위", "GPQA 최고점"을 주장해요.근데 그게 내 서비스에서도 최고일까요.공개 벤치마크의 현실:MMLU: 상위 모델 88% 이상 → 이미 포화SWE-bench: 에이전트 코딩 특화 → 일반 서비스와 무관GPQA: 박사급 과학 문제 → 실제 업무와 거리 멀어데이터 오염 문제:- 훈련 데이터에 이미 벤치마크 문제가 포함됨- GSM8K 점수 vs GSM1K(새 문제) 점수 차이: 최대 16%p- 모델이 실제로 못 풀어도 고점 가능진짜 답은 내 서비스에 맞는 사설 평가셋을 직접 만드는 것이에요.50개면 충분히 시작할 수 있어요. 오늘 만들어봅시다.왜 50개인가너무 적으면 (10개 미만):→ 통계적으로 의미 없음→ 우연에 의한 결과 가능너무 많으면 (5..

Opus 4.7 에이전트 비용 제어 실전 — effort + Task Budget 완전 가이드 에이전트를 Opus 4.7로 돌리면 비용이 예측 불가예요.왜 예측이 안 되냐:→ 에이전트 루프: 생각 + 툴 호출 + 툴 결과 + 출력이 쌓임→ xhigh 기본값: 더 많이 생각함→ 새 토크나이저: 같은 텍스트도 최대 35% 토큰 증가→ 언제 끝날지 모름 = 비용도 모름Opus 4.7은 이걸 잡는 두 가지 도구를 줬어요.1. effort 파라미터: 추론 깊이 조절2. Task Budget: 에이전트 루프 전체 토큰 예산 설정하나씩 실제로 써볼게요.effort 파라미터5단계 레벨 이해low → 빠르고 싸다. 복잡한 추론 없음medium → 균형high → 기본값 (API 기본값)xhigh → high와 max 사이 (Claude Code 기본값)max → 최대 품질, 최고 비용비용 대비 성..

Claude Opus 4.7 토크나이저 함정 — 같은 가격, 더 많은 비용 Anthropic이 4월 16일 Opus 4.7을 출시하면서 이렇게 말했어요."가격 변동 없음. Opus 4.6과 동일한 $5/$25 per MTok"맞아요. 토큰당 가격은 그대로예요.근데 같은 텍스트가 더 많은 토큰으로 쪼개집니다.Anthropic 공식 문서:"새 토크나이저는 최대 35% 더 많은 토큰을 사용할 수 있음"실제 측정값 (claudecodecamp.com):기술 문서: 1.47x (47% 증가)CLAUDE.md: 1.45x (45% 증가)일반 코드: 1.20~1.35x한국어/CJK: 1.01x (거의 동일)Anthropic이 "최대 35%"라고 했지만 실제 영어/코드 기반 콘텐츠는 35%를 넘는 경우가 많아요.실제 비용이 얼마나 늘어나나케이스 1 — 일반 API 사용자하루 A..

AI 에이전트 트래픽 7,851% 폭증 — 바뀌어야 하는 서버 설계, 방어 전략 2025년, 조용히 인터넷이 바뀌었어요.HUMAN Security가 1경(10^15) 개 이상의 디지털 상호작용을 분석한 결과:2025년 트래픽 증가율:AI 에이전트 브라우저 트래픽: +7,851%AI 봇 전체: +187%사람: +3.1%자동화 트래픽 성장속도 = 사람의 8배Cloudflare CEO 매튜 프린스가 2026년 3월 SXSW에서 한 말:"2027년이면 봇 트래픽이 사람 트래픽을 추월한다.COVID 때처럼 반짝 스파이크가 아니다.멈출 기미가 없다."2024년 이미 자동화 트래픽이 전체 웹 트래픽의 51%를 넘겼어요. 인터넷 역사상 처음이에요.문제는 대부분의 서버와 API가 여전히 사람 트래픽 기준으로 설계되어 있다는 거..

Google ADK 실전 가이드 — 에이전트를 백엔드 시스템처럼 만드는 법 2025년 4월 Google이 ADK(Agent Development Kit)를 출시했어요. 2026년 4월 기준 v1.26.0까지 업데이트됐어요.다른 프레임워크들이 "AI 에이전트를 빠르게 만들자"에 집중할 때 ADK는 다른 방향을 봐요.CrewAI: 역할 기반 팀 → 빠른 프로토타입LangGraph: 그래프 기반 → 복잡한 워크플로우ADK: 백엔드 시스템처럼 → 프로덕션 배포 중심ADK가 뭔가오픈소스 (Apache 2.0)지원 언어: Python, TypeScript, Java, Go모델: Gemini 최적화, 다른 모델도 지원배포: Vertex AI Agent Engine (완전 관리형)프로토콜: MCP + A2A 네이티브 지원핵심 철학:"에이전트는 LLM 실험이 아니라프로덕션 소프트웨어다..

AI 에이전트 프로덕션 실패 7가지 패턴 데모에선 완벽했어요. 프로덕션에 올렸더니 망가졌어요.AI 에이전트는 일반 소프트웨어와 다르게 실패해요.일반 소프트웨어 실패:→ 500 에러→ 타임아웃→ 명확한 스택 트레이스AI 에이전트 실패:→ 조용히 틀린 답 반환→ 11일 동안 아무도 모르게 무한 루프→ $47,000 청구서→ 자신 있게 틀린 방향으로 달려감실제 사례들이에요.사례 1: Claude Code 서브에이전트→ 무한 루프로 4.6시간 동안 2,700만 토큰 소비→ GitHub Issue #15909에 보고됨사례 2: AWS Kiro AI 에이전트→ 프로덕션 환경 자율 삭제→ 13시간 장애사례 3: 멀티에이전트 리서치 툴→ 에이전트 A가 B에게 리서치 요청→ B가 A에게 검증 요청→ A가 B에게 재확인 요청→ 11일 동안 루프, $47,000 ..

Spec-Driven Development — Vibe Coding 다음 단계, AI 에이전트 개발 방법론 Claude Code, Cursor, Copilot 다 있어요. 근데 왜 아직도 버그가 나고 코드가 망가질까요.개발자: "알림 시스템 추가해줘"에이전트: 토스트 메시지 컴포넌트 생성개발자: "아니, 백엔드 알림이 필요해"에이전트: 이메일 알림 서비스 생성개발자: "SMS도 지원해야 해"에이전트: SMS 프로바이더 추가개발자: "재시도 로직은?"에이전트: 지수 백오프 추가...10번의 반복...→ 처음 의도와 다른 코드베이스→ 일관성 없는 패턴→ 아무도 전체를 이해 못 함이게 Vibe Coding의 한계예요. 500줄 넘어가면 무너지기 시작해요.Spec-Driven Development가 뭔가Vibe Coding:아이디어 → 프롬프트 → 코드 → 문제 → 재프롬프트 → ...Spec-Driven Devel..

이전 1 ··· 6 7 8 9 10 11 12 ··· 22 다음

티스토리툴바