본문 바로가기

반응형

분류 전체보기

AWS Kiro 3편—AgentCore 연동과 CDK 자동화, 코드 한 줄 없이 서버리스 풀스택 배포까지 스펙 쓰는 법, Steering 아키텍처 잡는 법 다 익혔다면 이제 목적지는 하나입니다. 스펙을 넣으면 AWS 인프라까지 자동으로 올라오는 파이프라인. Kiro + CDK + AgentCore가 연결되면 거기 도달합니다.📌 핵심 요약→ Kiro의 진짜 끝판: 스펙 → Lambda 핸들러 + CDK 인프라 코드 + 테스트 동시 생성→ AgentCore MCP Server: Kiro에서 122개 AgentCore API를 대화로 조작→ AgentCore Memory: 에이전트가 세션 넘어 컨텍스트 유지 — 장기 작업 필수→ AgentCore Gateway: 기존 REST API를 에이전트 Tool로 변환 — 레거시 현대화→ Lambda Durable Functions Power: 장기 실행 워크플로우 스펙.. 더보기
AWS Kiro 2편—Specs Wave 실행·Steering 아키텍처·Autonomous Agent, 팀 프로덕션에서 살아남는 법 기초편에서 설치하고 첫 스펙 써봤다면, 이제부터가 진짜입니다. Kiro가 단순 코드 생성 도구와 달라지는 지점은 세 가지입니다. 스펙이 코드를 제어하는 방식, Steering이 팀 전체에 적용되는 방식, Autonomous Agent가 백그라운드에서 PR을 열어주는 방식. 이 세 가지를 프로덕션에 박아 넣는 법을 다룹니다.핵심 요약Specs Wave 실행은 tasks.md 의존성 그래프를 분석해서 병렬 실행을 자동화하고 Wave N까지 순차 완료합니다. Bugfix Spec은 버그 수정을 스펙 워크플로우로 처리하는 방식으로, bugfix.md가 회귀 방지 가드레일 역할을 합니다. Steering은 always/auto/fileMatch/manual 4가지 모드를 전략적으로 분리해서 컨텍스트 낭비를 없앱니.. 더보기
LLM-as-Judge 완전 가이드 3편—에이전트 자동 평가 루프와 CI/CD 통합, Judge를 진짜 파이프라인에 박아라 1편에서 개념을 잡고, 2편에서 편향을 잡았다면, 3편은 실제 운영입니다. Judge를 실제 개발 파이프라인에 연결하지 않으면, 그건 그냥 일회성 스크립트입니다.📌 핵심 요약→ 2026년 현재 대부분의 팀은 Eval Level 0~1 — 수동 테스트가 전부→ 목표: PR 올릴 때마다 Judge가 자동 실행되는 Level 3 파이프라인 구현→ 에이전트 평가는 최종 결과 + 궤적(Trajectory) 함께 평가해야 함→ 단계별 비용 최적화: 결정론적 체크 → 경량 Judge → 프론티어 Judge → 인간→ Self-refinement 루프: Judge 피드백 → 에이전트 재시도 → 재평가 자동화→ CoT 평가 함정: 에이전트가 CoT로 Judge를 속이는 현상 실증됨 (2026)→ 프로덕션 모니터링: 실.. 더보기
LLM-as-Judge 완전 가이드 2편 — 편향 제거부터 Jury 패턴까지, 프로덕션에서 살아남는 법 기본 개념은 알겠는데, 실제로 쓰면 점수가 이상합니다. 짧은 답변이 낮게 나오고, 순서만 바꿔도 결과가 뒤집힙니다. 이게 왜 일어나는지, 어떻게 막는지 파고들어 봅니다.📌 핵심 요약→ LLM Judge의 인간 동의율 85% — 하지만 편향이 있으면 그 85%가 틀린 방향으로 수렴→ 주요 편향 4가지: Position / Verbosity / Self-preference / Preference Leakage→ G-Eval: 루브릭 기반 채점, CoT로 신뢰도 10~15% 향상→ DAG 방식: 비결정적 G-Eval의 한계를 구조화된 평가 그래프로 보완→ LLM Jury: 여러 모델을 배심원단처럼 운용, 단일 Judge 편향 희석→ Preference Leakage: Judge와 피평가 모델이 같은 계열이면.. 더보기
OpenAI, 사상 최대 IPO를 향해 달린다 — S-1 비밀 제출, 지금 개발자가 알아야 할 것 AI 스타트업이 상장한다는 뉴스, 이번엔 다릅니다. 규모가 다르고, 구조가 다르고, 파장이 다릅니다.📌 핵심 요약→ OpenAI, 이번 주(5/22) SEC에 S-1 비밀 제출 — Goldman Sachs·Morgan Stanley 주관→ 상장 목표: 2026년 9월, 밸류에이션 $1조 달러 돌파 전망→ 최근 펀딩(2026년 3월) 기준 기업가치 $8,520억, 월 매출 $20억 돌파→ 2025년 10월 비영리 → 공익법인(PBC) 구조 전환 완료 → IPO 법적 장벽 해소→ Musk 소송 5/18 배심원단 전원 기각 → 마지막 리스크 제거→ Microsoft 지분 26.79%, SoftBank $400억 투자 확정→ Anthropic 10월, SpaceX 6월 — AI 기업 상장 러시 동시 진행 중→.. 더보기
Policy-as-Code 실전 — AI가 짠 코드도 에이전트 행동도 자동으로 검사하는 법 AI가 Terraform 코드 뽑아줬는데, S3 버킷이 퍼블릭으로 열려있어도 아무도 몰랐던 경험 있으시죠?핵심 요약→ AI 코딩툴 속도 ↑ → 배포 빈도 ↑ → 수동 보안 리뷰 병목 → 자동화 필수→ OWASP Agentic App Top 10 (2026): Agent Goal Hijacking이 최대 리스크 1위→ Policy-as-Code: 보안·컴플라이언스 규칙을 Rego 코드로 → CI/CD에서 자동 차단→ OPA (Open Policy Agent): Netflix·Goldman Sachs·Pinterest 프로덕션 사용 중→ 용도 1: AI 생성 Terraform 코드 → 배포 전 정책 검사 → 위반 시 PR 차단→ 용도 2: AI 에이전트 툴 호출 → OPA가 허용/거부 결정 → 에이전트가 못.. 더보기
AI 에이전트 Durable Execution 실전 1편 — 에이전트가 죽어도 이어지는 워크플로우 설계 LLM 20번 호출하다 17번째에서 서버 죽으면? 처음부터 다시? 그 돈 다 날리는 거 맞습니다.핵심 요약→ Temporal Replay 2026 (5월): Netflix·NVIDIA·Stripe·Cursor 모두 사용 중, 고객 3,000+→ 핵심 문제: 에이전트 47단계 중 실패 → 1단계부터 재시작 → 토큰 비용 폭탄→ Durable Execution: 각 단계를 Event History에 저장 → 실패 지점부터 자동 재개→ 핵심 규칙: Workflow = 결정론적 오케스트레이터 / Activity = 비결정론적 실제 작업→ LLM 호출·툴 실행·API 요청 → 전부 Activity에 넣어야 함→ Workflow 안에서 random, datetime.now(), 직접 API 호출 금지→ Activi.. 더보기
AI 에이전트 품질 관리 전략 — 프로덕션 킬러 1위가 품질인 이유 에이전트 만들었는데 데모에선 완벽하고 프로덕션에선 이상하게 돌아가는 경험, 다들 있으시죠?핵심 요약→ LangChain 2026: 프로덕션 에이전트 팀의 32%가 품질을 최대 장벽으로 꼽음→ 63%의 에이전트가 복잡한 다단계 태스크에서 실패 — 데모는 통과해도→ 에이전트 평가 ≠ 일반 LLM 평가 — 비결정성·도구 체인·궤적이 핵심→ 3계층 평가: L1 결과(맞냐?) → L2 도구 호출(올바른 툴?) → L3 궤적(효율적?)→ LLM-as-Judge: 인간 평가자와 85% 일치 — 인간끼리 일치율보다 높음→ CLEAR 프레임워크: Cost·Latency·Effectiveness·Accuracy·Reliability 5축 평가→ 황금 케이스 50~100개 수작업 → 프로덕션 트레이스 500개+ 확보 필수→.. 더보기

반응형