본문 바로가기

반응형

분류 전체보기

Claude Code 디버깅 완전 가이드 — 에이전트가 실패할 때 추적하는 법 에이전트가 틀린 코드를 자신 있게 작성했습니다. 어디서 잘못됐는지 모릅니다. 에이전트한테 물어봐도 모릅니다. 이 상황을 체계적으로 추적하는 법을 정리했습니다.[핵심 요약]→ 문제: 에이전트 실패는 일반 버그보다 추적이 어려움→ 원인: 비결정적, 멀티스텝, 컨텍스트 의존→ 디버깅 레이어: 컨텍스트 → 툴 호출 → LLM 추론 → 출력→ 도구: Claude Code /debug, LangSmith 트레이싱, 로그 분석→ 패턴: 격리 → 재현 → 원인 파악 → 수정 → 검증→ 핵심: "에이전트가 뭘 보고 있었는가"가 디버깅의 출발점에이전트 디버깅이 왜 어려운가일반 코드 디버깅:→ 스택 트레이스 → 라인 번호 → 원인 명확→ 같은 입력 → 같은 오류 (재현 가능)→ 로컬에서 중단점 설정 가능에이전트 디버깅:→ .. 더보기
Cursor Rules 완전 가이드 — .cursorrules 잘 쓰는 법 Cursor를 쓰는데 매번 같은 말을 반복하고 있습니까. "TypeScript로 써줘", "함수명은 camelCase로", "테스트 코드도 같이". .cursorrules에 한 번 써두면 다시는 반복하지 않아도 됩니다.[핵심 요약]→ .cursorrules: 프로젝트 루트에 두는 Cursor 전용 지시 파일→ 역할: 모든 AI 요청에 자동으로 적용되는 시스템 프롬프트→ 범위: 프로젝트 전체 (글로벌) 또는 디렉토리별 (로컬)→ 형식: 마크다운 텍스트 (구조화 권장)→ Cursor 3: .cursor/rules/ 디렉토리로 확장 (다중 규칙 파일)→ 효과: 코드 일관성, 반복 지시 제거, 팀 컨벤션 자동 적용 .cursorrules가 뭔지 30초 정리없을 때:사용자: "로그인 API 만들어줘"Cursor:.. 더보기
LLM-as-Judge 완전 가이드 1편 — AI로 AI 출력을 자동 평가하는 법 LLM 응답 품질을 사람이 일일이 평가하고 있습니까. 1000개 응답을 사람이 보면 3일이 걸립니다. LLM-as-Judge는 같은 작업을 3분에 끝냅니다.[핵심 요약]→ 정체: LLM이 다른 LLM의 응답을 자동으로 평가하는 패턴→ 용도: 응답 품질 평가, A/B 테스트, 회귀 테스트, 프로덕션 모니터링→ 패턴: 단일 평가, 쌍 비교, 참조 기반, 루브릭 기반→ 도구: Claude API + 구조화 출력, LangSmith, Ragas→ 신뢰도: 사람 평가와 80~90% 일치 (단, 편향 있음)→ 비용: 평가당 $0.001~0.01 수준→ 주의: 자기 편향, 위치 편향 → 설계로 보완 필요 LLM-as-Judge가 왜 필요한가AI 서비스 응답 품질 평가 방법 비교:1. 사람 평가:→ 정확도: 가장 높음.. 더보기
AI 에이전트 롤백 전략 완전 가이드 — 에이전트가 망쳤을 때 복구하는 법 에이전트가 프로덕션 DB를 잘못 수정했습니다. 파일 200개를 잘못 덮어썼습니다. 되돌릴 방법이 없습니다. 이 상황을 구조적으로 막는 법을 정리했습니다.[핵심 요약]→ 문제: AI 에이전트는 실수를 확신에 차서 함 — 일반 버그보다 위험→ 해결: 액션 실행 전 스냅샷, 실행 후 검증, 실패 시 자동 롤백→ 핵심 패턴: Dry Run, 트랜잭션 래퍼, 스냅샷, 사람 확인 게이트→ 도구: Git, DB 트랜잭션, 파일 백업, 샌드박스 실행→ 원칙: 되돌릴 수 없는 액션은 항상 사람이 확인왜 AI 에이전트의 실수가 더 위험한가일반 버그 vs AI 에이전트 실수:일반 버그:→ 재현 가능 — 같은 입력에 같은 오류→ 스택 트레이스 명확→ 원인 파악 후 수정AI 에이전트 실수:→ 비결정적 — 재현이 어려움→ 에이전.. 더보기
AI 에이전트 상태 관리 완전 가이드 — 장기 실행 에이전트에서 상태를 잃지 않는 법 에이전트가 30분 작업 중 20분에 크래시났습니다. 처음부터 다시 시작합니다. 이 문제를 구조적으로 해결하는 법을 정리했습니다.[핵심 요약]→ 문제: LLM 컨텍스트는 세션 종료 시 사라짐 → 장기 작업에서 치명적→ 해결: 상태를 외부 저장소에 명시적으로 영속화→ 레이어: 메모리 계층 (인메모리 → Redis → DB) 구분→ 핵심 패턴: Checkpoint, Event Sourcing, 체크포인트 재시작→ 도구: LangGraph Checkpointer, Redis, Supabase, MemGPT 패턴→ 원칙: 에이전트가 죽어도 상태는 살아있어야 함왜 상태 관리가 어려운가일반 소프트웨어 상태 관리:→ 변수에 값 저장 → 프로세스가 살아있는 동안 유지→ DB 저장 → 영구 보존AI 에이전트 상태 관리:→.. 더보기
MCP 9700만 설치 — Linux Foundation 오픈 거버넌스 채택, AI 에이전트 표준 인프라가 됐습니다 2024년 11월 Anthropic 내부 실험으로 시작했습니다. 16개월 만에 월 9700만 SDK 다운로드, 모든 주요 AI 플랫폼 채택. 이제 HTTP, Kubernetes와 같은 반열의 오픈 표준이 됐습니다.[핵심 요약]→ MCP (Model Context Protocol): AI 모델과 외부 툴/데이터를 연결하는 표준 프로토콜→ 출시: 2024년 11월 (Anthropic 오픈소스 공개)→ 현황: 월 9700만 SDK 다운로드, 공개 서버 10,000개+→ 거버넌스: 2025년 12월 Linux Foundation Agentic AI Foundation(AAIF) 이전→ 창립: Anthropic, Block, OpenAI 공동 창립 / Google, Microsoft, AWS 지원→ 채택: Cha.. 더보기
Google Stitch vs Claude Design — AI 디자인 툴 2파전, 뭘 써야 하나 Figma 주가가 11% 빠졌습니다. 3월에 Stitch, 4월에 Claude Design. 한 달 새 AI 디자인 툴 2개가 연속 출시됐습니다.[핵심 요약]→ Google Stitch: 3월 19일 대규모 업데이트, 무료→ Claude Design: 4월 17일 출시, Opus 4.7 기반, 유료 구독 필요→ 공통점: 자연어 → UI/프로토타입 자동 생성→ 차이점: Stitch는 디자이너용, Claude Design은 비디자이너용→ 피해자: Figma (출시 당일 7% 하락)→ 결론: 용도가 달라 경쟁 구도라기보단 상호보완출시 배경 — Figma가 왜 떨었나타임라인:→ 3월 14일: Anthropic CPO Mike Krieger, Figma 이사회 조용히 사임→ 3월 19일: Google Stitch.. 더보기
나노바나나 프롬프트 모음집 정리 — 프롬프트 사이트 6곳 추천 Gemini 이미지 생성에 쓸 프롬프트를 처음부터 직접 쓸 필요 없습니다. 커뮤니티가 이미 수천 개를 정리해뒀습니다.[핵심 요약]→ 나노바나나: Gemini 이미지 생성 모델의 커뮤니티 별명→ Nano Banana 2: gemini-3.1-flash-image-preview (빠르고 저렴)→ Nano Banana Pro: gemini-3-pro-image-preview (4K, 고품질)→ 이번 글: 무료 프롬프트 모음 사이트/레포 6곳 완전 정리→ 공통점: 전부 무료, 복붙 바로 사용 가능나노바나나가 뭔지 30초 정리구글이 Gemini 이미지 생성 모델에 붙인 공식 코드명이 Nano Banana입니다. AI Studio, Gemini 앱, Vertex AI, Gemini API 전부에서 쓸 수 있습니다... 더보기

반응형