본문 바로가기

반응형

LLM

(51)
GPT-5.5 프롬프트 가이드 완전 분석 — OpenAI가 "기존 프롬프트 버려라"고 말하는 이유 GPT-5.5가 API에 공개되면서 OpenAI가 공식 프롬프트 가이드를 함께 냈습니다. 핵심 메시지는 하나입니다. GPT-5.2, GPT-5.4 프롬프트를 그대로 가져오지 마세요. 처음부터 다시 쓰세요.[핵심 요약]→ 출시: 2026년 4월 23일 (GPT-5.5), 프롬프트 가이드: 4월 25일→ 공식 위치: developers.openai.com/api/docs/guides/prompt-guidance→ 핵심 경고: GPT-5.2/5.4 프롬프트를 그대로 마이그레이션하면 오히려 성능 저하→ 이유: 기존 과도한 단계별 지시 → GPT-5.5의 추론 공간 제한 → 경직된 응답→ 해결: 아웃컴 퍼스트 — "어떻게 할지" 말고 "무엇을 달성할지"만 지정→ 7파트 구조: 역할 → 지시 → 성공 기준 → 허용..
IBM Granite 4.1 완전 분석 — 8B가 32B MoE를 이긴 이유, 파라미터보다 훈련이 중요하다 IBM이 "더 크게 만들기" 대신 "더 잘 훈련하기"를 선택했습니다. 8B 모델이 이전 32B MoE를 벤치마크 전 항목에서 앞섰습니다.[핵심 요약]→ 출시: 2026년 4월 29일 (IBM Research)→ 라이센스: Apache 2.0 — 상업 이용 무료→ 모델: 3B, 8B, 30B dense decoder-only transformer→ 컨텍스트: 128K (프로덕션), 512K (확장)→ 핵심: 8B dense가 이전 32B MoE(Granite 4.0-H-Small)를 전 벤치마크에서 앞섬→ 툴 호출 (BFCL V3): 8B 68.3 vs 32B MoE 64.7→ 훈련 데이터: 15조 토큰, 5단계 훈련→ 함께 출시: Granite Vision 4.1, Speech 4.1 (2B), Guar..
프롬프트 버전 관리 완전 가이드 — Git처럼 프롬프트를 관리하는 법 프롬프트를 수정했더니 응답 품질이 떨어졌습니다. 언제 바꿨는지, 뭘 바꿨는지 모릅니다. 되돌릴 수도 없습니다. 코드는 Git으로 관리하면서 프롬프트는 왜 노션에 복붙하고 있습니까.[핵심 요약]→ 문제: 프롬프트 변경 이력 없음 → 품질 저하 원인 추적 불가→ 해결: 프롬프트를 코드처럼 버전 관리→ 방법: Git 기반 파일 관리 + 메타데이터 + 자동 평가→ 도구: YAML 파일 + Git + LangSmith / PromptLayer / 자체 구축→ 원칙: 프롬프트 = 코드 → 같은 방식으로 관리→ 효과: A/B 테스트, 롤백, 팀 협업, 품질 추적 가능왜 프롬프트 버전 관리가 필요한가코드 버전 관리 (당연하게 함):git commit -m "로그인 버그 수정"git revert HEAD # 되돌리기g..
LLM 프롬프트 캐싱 완전 가이드 — 같은 말 두 번 하지 마세요, 비용 90% 줄이는 법 시스템 프롬프트가 매 요청마다 다시 처리되고 있습니다. 캐싱 하나로 비용의 90%를 날릴 수 있습니다.[핵심 요약]→ 문제: LLM API는 같은 시스템 프롬프트도 매번 토큰 비용 청구→ 해결: 프롬프트 캐싱 — 한 번 처리된 컨텍스트를 재사용→ 절감: 캐시 히트 시 입력 토큰 비용 90% 절감 (Claude 기준)→ 지원: Claude (Anthropic), GPT-4o (OpenAI), Gemini 3.1 (Google)→ 적합한 곳: 긴 시스템 프롬프트, 문서 분석, RAG, 멀티턴 대화→ 주의: TTL 있음 (Claude 5분, GPT 1시간) — 전략적 설계 필요프롬프트 캐싱이 왜 필요한가# 캐싱 없을 때 — 매 요청마다 전체 토큰 과금system_prompt = """당신은 법률 전문 AI 어..
Kimi K2.6 완전 분석 — 오픈소스가 GPT-5.4를 이기고 Claude 비용의 10%로 돌아간다 300개 서브 에이전트, 12시간 자율 실행, 가격은 Claude Opus 4.7의 10분의 1. 중국 오픈소스 모델이 또 판을 뒤집었습니다.[핵심 요약]→ 출시: 2026년 4월 20일 (Moonshot AI), 오픈웨이트 공개→ 라이센스: Modified MIT — 상업 이용 가능→ 구조: 1T 총 파라미터 / 32B 활성 / 384 전문가 (MoE)→ 컨텍스트: 262K 토큰 (자동 압축으로 12시간 세션 지속)→ SWE-bench Verified: 80.2% (Claude Opus 4.6: 80.8%)→ SWE-bench Pro: 58.6% — GPT-5.4(57.7%), GLM-5.1(58.4%) 압도→ Terminal-Bench 2.0: 66.7% — GPT-5.4(65.4%) 앞섬→ Agen..
Microsoft MAI 모델 3종 완전 분석 — OpenAI 없이 만든 음성·이미지 API 실전 가이드 13조 원 투자한 파트너 없이 만들었습니다. Mustafa Suleyman이 이끄는 MAI 팀의 첫 번째 파운데이션 모델입니다.[핵심 요약]→ 출시: 2026년 4월 2일 (Microsoft Foundry + MAI Playground)→ 만든 팀: MAI (Microsoft AI Superintelligence) — OpenAI 관여 없음→ MAI-Transcribe-1: STT, 25개 언어, FLEURS 1위, Whisper 전 언어 압도→ MAI-Voice-1: TTS, 60초 오디오를 1초 안에 생성, 커스텀 보이스 클로닝→ MAI-Image-2: 이미지 생성, Arena.ai 리더보드 3위→ MAI-Image-2-Efficient: 4월 13일 추가 출시 — 같은 품질, 더 빠르고 저렴→ 가격..
OpenAI Privacy Filter 완전 가이드 — LLM에 개인정보 넣기 전에 로컬에서 자동 마스킹하는 법 고객 데이터를 Claude나 GPT API에 넣기 전에 개인정보를 자동으로 지워야 합니다. 클라우드로 보내지 않고, 로컬에서, 코드 3줄로 해결합니다.[핵심 요약]→ 정체: 텍스트 안의 개인정보를 자동 탐지/마스킹하는 오픈소스 모델→ 크기: 1.5B 파라미터 (50M 활성) — 노트북에서 실행 가능→ 라이센스: Apache 2.0 — 상업 이용 무료→ 컨텍스트: 128K 토큰 — 긴 문서/이메일 스레드 한 번에 처리→ 탐지 범주: 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 비밀번호/API 키→ 성능: PII-Masking-300k F1 97.43%→ 핵심: 데이터가 외부 서버로 나가지 않음왜 필요한가LLM API를 쓰다 보면 개인정보가 섞인 데이터를 넣게 되는 상황이 자주 생깁니다.흔한..
오픈소스 코딩 모델 3파전 — Qwen3.6-27B vs Gemma 4 31B vs GLM-5.1 각자 다른 대륙, 다른 철학. 그런데 전부 프론티어급입니다. 뭘 골라야 할지 완전히 정리해드립니다.[핵심 요약]→ Qwen3.6-27B: 코딩 에이전트 최강, RTX 4090 한 장, Apache 2.0→ Gemma 4 31B: 수학/추론 최강, 멀티모달(비전+오디오), Apache 2.0→ GLM-5.1: SWE-bench Pro 1위, 6000+ 툴 호출 지속, MIT 라이센스→ 공통점: 전부 Apache 2.0 / MIT, 상업 이용 무료→ 결론: 용도에 따라 다름 — 이 글이 그 기준을 정리합니다세 모델이 동시에 나온 이유2026년 4월은 오픈소스 AI 역사상 가장 경쟁이 치열한 달입니다. Alibaba, Google, Z.AI(Zhipu AI)가 수주 안에 모두 출시했습니다.출시 타임라인:→ G..

반응형