본문 바로가기

반응형

분류 전체보기

Harness Engineering 완전 가이드 — AI가 더 잘 짜도록 환경 자체를 설계하는 법 프롬프트를 아무리 잘 써도 AI가 엉뚱한 파일 수정하고 없는 API 만들어냅니다. 문제는 프롬프트가 아닙니다. AI가 작업하는 환경 자체가 문제입니다. Harness Engineering은 그 환경을 설계하는 기법입니다.[핵심 요약]→ Harness: 모델을 제외한 에이전트의 모든 것 (Agent = Model + Harness)→ 핵심 철학: "프롬프트를 잘 쓰는 것"이 아니라 "AI가 작업하는 환경을 설계"→ 두 가지 제어 방식: Guides(사전 방지) + Sensors(사후 자동 교정)→ 두 가지 실행 유형: Computational(결정론적) + Inferential(AI 기반)→ 계층 구조: 모델 → 빌더 하네스 → 유저 하네스 (3겹)→ 효과: LangChain, Terminal-Bench .. 더보기
Slopsquatting 완전 가이드 — AI가 추천한 패키지가 악성코드일 수 있다 Claude Code한테 "이거 구현해줘" 했더니 import fastjson 썼습니다. PyPI에서 설치하려는데 진짜 있더라고요. 근데 어제 공격자가 등록한 겁니다. 이게 Slopsquatting입니다.[핵심 요약]→ Slopsquatting: AI가 환각한 패키지 이름을 공격자가 선점 등록하는 공급망 공격→ 용어 창시: Python Software Foundation 보안 연구원 Seth Larson→ 규모: 16개 AI 코딩 모델 테스트 → 생성 코드의 약 20%에 환각 패키지 포함→ 반복성: 환각 패키지 이름의 58% 이상이 여러 번 반복 → 공격자가 예측 가능→ 실제 사례: react-codeshift (jscodeshift + react-codemod 합성) — 2026년 1월→ 타겟: npm.. 더보기
LangGraph 상태 영속성(Checkpointing) — 에이전트가 죽어도 이어서 실행하는 법 에이전트가 10분째 실행 중이었습니다. 서버가 죽었습니다. 처음부터 다시입니다. Checkpointing을 붙이면 마지막 노드에서 이어서 실행합니다.[핵심 요약]→ Checkpointing: 매 노드 실행 후 그래프 상태를 DB에 저장→ Thread: 대화/작업 단위 식별자 (thread_id로 상태 분리)→ 백엔드: MemorySaver(개발) → SQLite(단일서버) → PostgreSQL(프로덕션)→ 3가지 핵심 기능: 크래시 복구 / 멀티턴 메모리 / 타임트래블→ Human-in-the-Loop: interrupt_before로 중간 승인 게이트 구현 가능→ langgraph-checkpoint 최신: 4.1.0 (2026년 5월 12일 릴리즈)Checkpointing이 없으면 생기는 일Chec.. 더보기
Claude Agent SDK 실전 — 자율 코딩 에이전트 직접 만들어보기 "Claude Code가 저절로 코드를 고친다고? 그 엔진, 이제 내 서버에서도 돌릴 수 있습니다."이번에 다루는 것:→ Claude Agent SDK가 일반 Anthropic API와 다른 이유→ 설치 및 기본 에이전트 루프 구현 (Python / TypeScript)→ 파일 편집·셸 실행·서브에이전트 병렬화 실전 예제→ Managed Agents API로 클라우드 배포하기→ 언제 쓰고, 언제 쓰지 말아야 하는지배경 — Claude Code SDK에서 Claude Agent SDK로Anthropic이 Claude Code를 만들면서 깨달은 게 있습니다. 에이전트에게 필요한 건 대화 능력이 아니라 컴퓨터 접근권이라는 것입니다.파일을 읽고, 셸 명령을 실행하고, 결과를 보고 다시 수정하는 루프. 이 루프를.. 더보기
GitHub Spec Kit 완전 가이드 — 9만 스타, AI 에이전트에게 코드 대신 스펙을 던지는 법 AI 에이전트한테 기능 만들어달라고 했더니 돌아가긴 하는데 의도한 게 아닌 코드가 나옵니다. 다시 프롬프트 씁니다. 또 틀립니다. Vibe Coding의 끝이 이렇습니다. GitHub Spec Kit은 이 루프를 끊습니다.[핵심 요약]→ 정체: GitHub 공식 오픈소스, Spec-Driven Development(SDD) 툴킷→ GitHub 스타: 90,000+ / 포크: 8,000+ (2026년 5월 기준)→ 라이선스: MIT — 상업 이용 무료→ 핵심: 코드가 아닌 스펙이 소스 오브 트루스→ 4단계 워크플로우: Specify → Plan → Tasks → Implement→ 7개 슬래시 커맨드로 전 과정 진행→ 지원 에이전트: Claude Code, Copilot, Gemini CLI, Codex,.. 더보기
AWS Kiro 완전 가이드 — Amazon Q Developer가 죽고 Spec-Driven IDE가 왔다 Amazon Q Developer 신규 가입이 5월 15일부터 막혔습니다. AWS가 지목한 후계자는 Kiro입니다. Cursor도 Claude Code도 아닌, 코드보다 스펙을 먼저 쓰는 에이전트 IDE입니다.[핵심 요약]Kiro는 AWS가 만든 에이전트 IDE + CLI로 Code OSS 기반이며 VS Code와 호환됩니다. Amazon Q Developer는 2026년 5월 15일부터 신규 가입이 차단됐고, 기존 Pro 사용자는 2027년 4월 30일까지 마이그레이션 기간이 주어집니다. 핵심 철학은 "스펙이 소스 오브 트루스, 코드는 빌드 아티팩트"이며, 모델은 추론 집약 작업에 Claude Sonnet, 고처리량 코드 생성에 Amazon Nova를 조합해서 씁니다. 가격은 무료 티어가 있고 Pro는.. 더보기
Google I/O 2026 예고 —5/19 키노트에서 발표될 내용들 내일 자고 일어나면 AI 개발 스택이 또 바뀝니다. Gemini Omni, Android 17 온디바이스 AI API, Firebase Genkit 2.0 MCP 통합. 개발자라면 키노트 전에 미리 알아야 할 것들을 전부 정리했습니다.[핵심 요약]→ 일정: 5/19(화) 오전 10시 PT (한국 시간 5/20 새벽 2시) 키노트 시작→ 핵심 발표 예상: Gemini 3.2 Flash GA + Gemini Omni 공개→ 개발자 필수: Firebase AI Logic GA + Genkit 2.0 (MCP 서버 통합)→ Android 17: Edge-to-Cloud 추론 라우팅 API + 온디바이스 AI Core 공식화→ Gemma 4 27B: 4비트 양자화, 상업 이용 가능 오픈웨이트→ Android XR.. 더보기
Claude Code Auto Mode 완전 가이드 — 장시간 작업 자동화하는 법 3시간 동안 리팩토링하면서 승인 버튼을 137번 눌렀습니다. 매번 읽지도 않고 클릭했습니다. 이게 안전한 게 아니라는 걸 Anthropic도 알았습니다. 그래서 Auto Mode를 만들었습니다.[핵심 요약]→ 출시: 2026년 3월 24일 (Team 플랜 리서치 프리뷰)→ 현재: Max, Team, Enterprise, API 전체 GA→ 정체: AI 분류기가 권한 결정을 대신하는 Claude Code 새 권한 모드→ 목적: --dangerously-skip-permissions의 안전한 대안→ 원리: 2단계 분류 파이프라인 → 안전 액션은 자동 실행, 위험 액션만 사람에게 요청→ 모델: Claude Sonnet 4.6 / Opus 4.6 지원→ 비용: 분류기 추가 실행으로 토큰 약 10~15% 증가→ .. 더보기

반응형