반응형

LLM 43

프롬프트 버전 관리 완전 가이드 — Git처럼 프롬프트를 관리하는 법

프롬프트를 수정했더니 응답 품질이 떨어졌습니다. 언제 바꿨는지, 뭘 바꿨는지 모릅니다. 되돌릴 수도 없습니다. 코드는 Git으로 관리하면서 프롬프트는 왜 노션에 복붙하고 있습니까.[핵심 요약]→ 문제: 프롬프트 변경 이력 없음 → 품질 저하 원인 추적 불가→ 해결: 프롬프트를 코드처럼 버전 관리→ 방법: Git 기반 파일 관리 + 메타데이터 + 자동 평가→ 도구: YAML 파일 + Git + LangSmith / PromptLayer / 자체 구축→ 원칙: 프롬프트 = 코드 → 같은 방식으로 관리→ 효과: A/B 테스트, 롤백, 팀 협업, 품질 추적 가능왜 프롬프트 버전 관리가 필요한가코드 버전 관리 (당연하게 함):git commit -m "로그인 버그 수정"git revert HEAD # 되돌리기g..

LLM 2026.04.30

LLM 프롬프트 캐싱 완전 가이드 — 같은 말 두 번 하지 마세요, 비용 90% 줄이는 법

시스템 프롬프트가 매 요청마다 다시 처리되고 있습니다. 캐싱 하나로 비용의 90%를 날릴 수 있습니다.[핵심 요약]→ 문제: LLM API는 같은 시스템 프롬프트도 매번 토큰 비용 청구→ 해결: 프롬프트 캐싱 — 한 번 처리된 컨텍스트를 재사용→ 절감: 캐시 히트 시 입력 토큰 비용 90% 절감 (Claude 기준)→ 지원: Claude (Anthropic), GPT-4o (OpenAI), Gemini 3.1 (Google)→ 적합한 곳: 긴 시스템 프롬프트, 문서 분석, RAG, 멀티턴 대화→ 주의: TTL 있음 (Claude 5분, GPT 1시간) — 전략적 설계 필요프롬프트 캐싱이 왜 필요한가# 캐싱 없을 때 — 매 요청마다 전체 토큰 과금system_prompt = """당신은 법률 전문 AI 어..

LLM 2026.04.30

LLM 추상화 레이어 — 48시간마다 새 모델이 나오는 시대에 살아남는 법

48시간마다 새 모델이 출시돼요.GPT-5.4 나옴 → "오 이게 최고네" → 갈아타고 싶음근데 코드 전체가 Anthropic SDK로 짜여있음갈아타려면:- SDK 교체- API 형식 전부 수정- 프롬프트 재조정- 테스트 전부 재실행- 2주짜리 작업이게 벤더 락인이에요.반대로 추상화 레이어가 있으면:# 이것만 바꾸면 끝MODEL = "openai/gpt-5.4" # 전에는 "anthropic/claude-sonnet-4-6"코드 한 줄. 2주가 1초가 돼요.왜 지금 이게 중요한가실제로 일어난 일들:- DALL-E 3 2026년 5월 지원 종료 → 수주 안에 마이그레이션- GPT-4 요금 갑자기 30% 인상 → 단가 모델 붕괴- Anthropic API 6시간 다운 → 서비스 전체 중단- 경쟁사가 10배..

AI 개발 2026.04.23

markitdown 완전 가이드 — PDF, Word, PPT를 LLM이 읽는 형식으로 자동 변환

RAG 파이프라인을 만들다 보면 항상 이 벽에 부딪혀요."이 PDF 분석해줘"→ LLM: ????이유:PDF는 렌더링용 포맷텍스트, 이미지, 표가 뒤섞인 이진 파일LLM이 직접 이해하기 어려움그래서 보통 이렇게 함:PDF → PyPDF2로 텍스트 추출 → 근데 표/이미지 날아감Word → python-docx → 복잡한 파싱 코드 작성PPT → 슬라이드 하나씩 수동 처리Excel → pandas로 읽고 또 변환→ 포맷마다 다른 라이브러리→ 포맷마다 다른 코드→ 복잡하고 유지보수 힘듦Microsoft가 이 문제를 해결하는 도구를 오픈소스로 냈어요. markitdown이에요.pip install 'markitdown[all]'markitdown 문서.pdf끝.GitHub 별 5만개+. MIT 라이선스.뭘 지..

AI 개발 2026.04.21

Gemma 4 파인튜닝 Unsloth로 30분에 끝내기 — API 비용 0원, 도메인 특화 모델

GPT-4급 성능을 API 비용 없이. 내 도메인 데이터로 특화된 모델을.Gemma 4는 2026년 4월 2일 Google DeepMind가 출시한 오픈소스 모델이에요. Apache 2.0 라이선스 — 상업적 사용, 재배포, 수정 모두 자유예요.파인튜닝이 필요한 이유:프롬프트 엔지니어링: "항상 JSON으로 응답해줘" → 30% 실패율RAG: 지식 주입엔 좋지만 스타일/형식 제어 어려움파인튜닝: 99% 이상 일관된 출력, 도메인 특화 지식언제 파인튜닝이 답인가:→ 출력 형식이 항상 일정해야 할 때→ 특정 도메인 용어/스타일이 필요할 때→ 프롬프트가 너무 길어서 비용 문제가 될 때→ API 없이 로컬/온프레미스 배포가 필요할 때Unsloth가 뭔가HuggingFace 기본 방식 대비:속도: 2배 빠른 ..

LLM 2026.04.21

LLM 사설 평가셋 50개 만들고 모델 비교하기 — 벤치마크를 믿지 마세요

48시간마다 새 모델이 나와요. 모두 "SWE-bench 1위", "GPQA 최고점"을 주장해요.근데 그게 내 서비스에서도 최고일까요.공개 벤치마크의 현실:MMLU: 상위 모델 88% 이상 → 이미 포화SWE-bench: 에이전트 코딩 특화 → 일반 서비스와 무관GPQA: 박사급 과학 문제 → 실제 업무와 거리 멀어데이터 오염 문제:- 훈련 데이터에 이미 벤치마크 문제가 포함됨- GSM8K 점수 vs GSM1K(새 문제) 점수 차이: 최대 16%p- 모델이 실제로 못 풀어도 고점 가능진짜 답은 내 서비스에 맞는 사설 평가셋을 직접 만드는 것이에요.50개면 충분히 시작할 수 있어요. 오늘 만들어봅시다.왜 50개인가너무 적으면 (10개 미만):→ 통계적으로 의미 없음→ 우연에 의한 결과 가능너무 많으면 (5..

LLM 2026.04.20

LLM 모델 라우팅 완전 가이드 — 분류기, 캐스케이딩, 시맨틱 캐시 실전

LLM을 프로덕션에 올리면 첫 달 청구서가 이렇게 나와요.예상: $300/월실제: $2,400/월원인 분석해보면 이래요.고객: "배송 얼마나 걸려요?"→ Claude Opus 4.6 응답 ($0.015/1K토큰)고객: "안녕하세요"→ Claude Opus 4.6 응답 ($0.015/1K토큰)고객: "취소 어떻게 해요?"→ Claude Opus 4.6 응답 ($0.015/1K토큰)모든 요청에 제일 비싼 모델을 쓰고 있어요.모델별 비용 현실2026년 4월 기준 (Anthropic):Claude Haiku 4.5:입력 $1/M토큰 | 출력 $5/M토큰→ 빠름, 저렴, 단순 작업에 충분Claude Sonnet 4.6:입력 $3/M토큰 | 출력 $15/M토큰→ 중간, 대부분 작업에 적합Claude Opus 4.6..

AI Agent 2026.04.15

FlashAttention 완전 정리 — LLM이 긴 문서를 처리할 수 있는 진짜 이유

LLM이 긴 문서를 처리할 때 왜 느려질까요?GPT-3 컨텍스트: 2,048 토큰GPT-4 컨텍스트: 128,000 토큰Llama 3: 1,000,000 토큰2년 만에 500배 늘어났어요.이게 가능해진 핵심 기술이 FlashAttention이에요.Attention이 뭔가LLM은 텍스트를 읽을 때 모든 토큰이 다른 모든 토큰과 얼마나 관련있는지 계산해요.입력: "나는 사과를 먹었다"각 토큰이 다른 토큰과의 관계 점수 계산:"나는" ↔ "사과를": 0.3"나는" ↔ "먹었다": 0.8"사과를" ↔ "먹었다": 0.7...수식으로는 이래요.Attention(Q, K, V) = softmax(QK^T / √d_k) × VQ(Query): "지금 처리 중인 토큰"K(Key): "비교할 모든 토큰"V(Val..

LLM 2026.04.15

SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법

Claude API 쓰다 보면 월말에 이런 청구서가 날아와요.API 비용: $3,200예산: $500원인은 단순해요. 모든 요청에 수천억 파라미터 모델을 쓰고 있어서예요.고객이 "배송 얼마나 걸려요?"라고 물어봐도 Claude Opus가 답하고 있어요.SLM(Small Language Model)은 이걸 해결해요.SLM이 뭔가LLM: 100B ~ 1T+ 파라미터SLM: 500M ~ 10B 파라미터LLM:→ H100 GPU 여러 장 필요→ API 비용 높음→ 응답 느림SLM:→ RTX 4070 노트북 1대로 가능→ 로컬 실행 시 비용 거의 0→ 응답 빠름2026년 기준으로 프로덕션 AI 업무의 80%는 SLM으로 충분해요.2026년 주요 SLM 정리Microsoft Phi-4 Mini (3.8B)특징:- ..

LLM 2026.04.15

Qwen 3.5 완전 분석 — 397B 파라미터인데 왜 저렴하고 빠른가

2026년 2월 16일, Alibaba가 Qwen 3.5를 공개했어요.공개하자마자 오픈소스 AI 커뮤니티가 뒤집혔어요.Qwen3.5-9B → GPT-OSS-120B(13배 큰 모델) 성능 능가Qwen3.5-35B-A3B → 이전 세대 235B 플래그십 능가Qwen3.5-397B-A17B → GPT-5.2, Gemini 3 Pro와 정면 승부Apache 2.0 → 상업적 사용 완전 무료핵심 — MoE 아키텍처가 뭔가Qwen 3.5의 핵심은 Sparse Mixture-of-Experts(희소 혼합 전문가) 구조예요.일반 LLM:요청 → 전체 파라미터 사용 → 응답(100% 파라미터 항상 활성화)Qwen 3.5 MoE:요청 → 관련 전문가 그룹만 활성화 → 응답(총 397B 중 17B만 활성화)활성화 비율: ..

LLM 2026.04.15
반응형