본문 바로가기

반응형

AI Agent

(41)
5개국 "에이전트 AI 보안 가이드" 완전 분석 — 정부가 경고한 AI 에이전트 5가지 위험과 개발자 체크리스트 CISA, NSA, 영국, 호주, 캐나다, 뉴질랜드가 함께 경고했습니다. AI 에이전트는 이미 핵심 인프라에서 돌아가고 있고, 대부분의 조직이 아무도 실시간으로 감사할 수 없을 만큼 많은 권한을 줬다고.[핵심 요약]→ 발표: 2026년 5월 1일 (Five Eyes 6개 기관 공동)→ 발행처: CISA, NSA (미국), ASD ACSC (호주), CCCS (캐나다), NCSC-NZ (뉴질랜드), NCSC (영국)→ 문서: "Careful Adoption of Agentic AI Services" (28페이지)→ 대상: 정부, 핵심 인프라, 기업 (규모 무관)→ 핵심 메시지: "에이전트 AI를 점진적으로 배포하라. 저위험 작업부터"→ 위험 5가지: 권한, 설계/구성, 행동, 구조, 책임→..
임베딩 모델 완전 가이드 — text-embedding 선택과 RAG 적용 RAG를 만들었는데 검색 품질이 나쁩니다. 청킹도 바꿔보고 프롬프트도 바꿨는데 여전합니다. 임베딩 모델이 문제일 수 있습니다. 선택 기준부터 실전 적용까지 정리했습니다.[핵심 요약]→ 임베딩: 텍스트를 의미 기반 숫자 벡터로 변환하는 것→ 역할: RAG에서 "관련 문서를 찾는" 핵심 엔진→ 모델 선택이 RAG 품질의 40~60%를 결정→ 주요 모델: Qwen3-Embedding, OpenAI, Cohere, bge-m3, Voyage AI→ 한국어: Qwen3-Embedding-8B, bge-m3, Cohere multilingual 추천→ 평가: MTEB 벤치마크 기준 + 실제 도메인 테스트 필수→ 비용: 로컬(무료) vs API(편리) — 볼륨에 따라 선택임베딩이 뭔지 30초 정리# 임베딩 = 텍스트..
Claude Code 디버깅 완전 가이드 — 에이전트가 실패할 때 추적하는 법 에이전트가 틀린 코드를 자신 있게 작성했습니다. 어디서 잘못됐는지 모릅니다. 에이전트한테 물어봐도 모릅니다. 이 상황을 체계적으로 추적하는 법을 정리했습니다.[핵심 요약]→ 문제: 에이전트 실패는 일반 버그보다 추적이 어려움→ 원인: 비결정적, 멀티스텝, 컨텍스트 의존→ 디버깅 레이어: 컨텍스트 → 툴 호출 → LLM 추론 → 출력→ 도구: Claude Code /debug, LangSmith 트레이싱, 로그 분석→ 패턴: 격리 → 재현 → 원인 파악 → 수정 → 검증→ 핵심: "에이전트가 뭘 보고 있었는가"가 디버깅의 출발점에이전트 디버깅이 왜 어려운가일반 코드 디버깅:→ 스택 트레이스 → 라인 번호 → 원인 명확→ 같은 입력 → 같은 오류 (재현 가능)→ 로컬에서 중단점 설정 가능에이전트 디버깅:→ ..
LLM-as-Judge 완전 가이드 — AI로 AI 출력을 자동 평가하는 법 LLM 응답 품질을 사람이 일일이 평가하고 있습니까. 1000개 응답을 사람이 보면 3일이 걸립니다. LLM-as-Judge는 같은 작업을 3분에 끝냅니다.[핵심 요약]→ 정체: LLM이 다른 LLM의 응답을 자동으로 평가하는 패턴→ 용도: 응답 품질 평가, A/B 테스트, 회귀 테스트, 프로덕션 모니터링→ 패턴: 단일 평가, 쌍 비교, 참조 기반, 루브릭 기반→ 도구: Claude API + 구조화 출력, LangSmith, Ragas→ 신뢰도: 사람 평가와 80~90% 일치 (단, 편향 있음)→ 비용: 평가당 $0.001~0.01 수준→ 주의: 자기 편향, 위치 편향 → 설계로 보완 필요 LLM-as-Judge가 왜 필요한가AI 서비스 응답 품질 평가 방법 비교:1. 사람 평가:→ 정확도: 가장 높음..
AI 에이전트 롤백 전략 완전 가이드 — 에이전트가 망쳤을 때 복구하는 법 에이전트가 프로덕션 DB를 잘못 수정했습니다. 파일 200개를 잘못 덮어썼습니다. 되돌릴 방법이 없습니다. 이 상황을 구조적으로 막는 법을 정리했습니다.[핵심 요약]→ 문제: AI 에이전트는 실수를 확신에 차서 함 — 일반 버그보다 위험→ 해결: 액션 실행 전 스냅샷, 실행 후 검증, 실패 시 자동 롤백→ 핵심 패턴: Dry Run, 트랜잭션 래퍼, 스냅샷, 사람 확인 게이트→ 도구: Git, DB 트랜잭션, 파일 백업, 샌드박스 실행→ 원칙: 되돌릴 수 없는 액션은 항상 사람이 확인왜 AI 에이전트의 실수가 더 위험한가일반 버그 vs AI 에이전트 실수:일반 버그:→ 재현 가능 — 같은 입력에 같은 오류→ 스택 트레이스 명확→ 원인 파악 후 수정AI 에이전트 실수:→ 비결정적 — 재현이 어려움→ 에이전..
AI 에이전트 상태 관리 완전 가이드 — 장기 실행 에이전트에서 상태를 잃지 않는 법 에이전트가 30분 작업 중 20분에 크래시났습니다. 처음부터 다시 시작합니다. 이 문제를 구조적으로 해결하는 법을 정리했습니다.[핵심 요약]→ 문제: LLM 컨텍스트는 세션 종료 시 사라짐 → 장기 작업에서 치명적→ 해결: 상태를 외부 저장소에 명시적으로 영속화→ 레이어: 메모리 계층 (인메모리 → Redis → DB) 구분→ 핵심 패턴: Checkpoint, Event Sourcing, 체크포인트 재시작→ 도구: LangGraph Checkpointer, Redis, Supabase, MemGPT 패턴→ 원칙: 에이전트가 죽어도 상태는 살아있어야 함왜 상태 관리가 어려운가일반 소프트웨어 상태 관리:→ 변수에 값 저장 → 프로세스가 살아있는 동안 유지→ DB 저장 → 영구 보존AI 에이전트 상태 관리:→..
AI 에이전트 테스트 전략 완전 가이드 — 단위 테스트부터 통합 테스트, E2E까지 일반 소프트웨어는 같은 입력에 항상 같은 출력이 나옵니다. AI 에이전트는 그렇지 않습니다. 테스트 전략 자체가 달라야 합니다.[핵심 요약]→ 문제: AI 에이전트는 비결정적 → 기존 단위 테스트로는 불충분→ 해결: 레이어별 테스트 전략 (툴 → 에이전트 로직 → 통합 → E2E)→ 핵심 도구: pytest + unittest.mock, LangSmith, Pytest-asyncio→ 평가 방법: LLM-as-Judge, 골든셋 비교, 행동 기반 검증→ CI/CD: 에이전트 테스트를 파이프라인에 자동화하는 법→ 원칙: 완벽한 재현보다 "허용 가능한 범위" 검증이 핵심왜 기존 테스트가 안 통하나소프트웨어 테스트의 기본 전제는 결정론적 동작입니다. 같은 입력 → 항상 같은 출력. AI 에이전트는 이 전제를 ..
MCP 9700만 설치 — Linux Foundation 오픈 거버넌스 채택, AI 에이전트 표준 인프라가 됐습니다 2024년 11월 Anthropic 내부 실험으로 시작했습니다. 16개월 만에 월 9700만 SDK 다운로드, 모든 주요 AI 플랫폼 채택. 이제 HTTP, Kubernetes와 같은 반열의 오픈 표준이 됐습니다.[핵심 요약]→ MCP (Model Context Protocol): AI 모델과 외부 툴/데이터를 연결하는 표준 프로토콜→ 출시: 2024년 11월 (Anthropic 오픈소스 공개)→ 현황: 월 9700만 SDK 다운로드, 공개 서버 10,000개+→ 거버넌스: 2025년 12월 Linux Foundation Agentic AI Foundation(AAIF) 이전→ 창립: Anthropic, Block, OpenAI 공동 창립 / Google, Microsoft, AWS 지원→ 채택: Cha..

반응형