본문 바로가기

AI Development

(55)

Claude Advisor Strategy 실전 가이드 — Opus 성능을 Sonnet 비용으로 에이전트 만들 때 항상 이 딜레마가 있었어요.Opus 쓰면: 성능 좋음, 비용 존나 비쌈Sonnet 쓰면: 저렴함, 복잡한 작업에서 허덕임4월 9일 Anthropic이 이 문제를 해결했어요. Advisor Strategy — Sonnet이 혼자 다 처리하다가 막히면 Opus한테 조언을 구하는 구조예요.결과: SWE-bench Multilingual 점수 2.7% 올라가고 비용은 오히려 11.9% 줄었어요.기존 방식 vs Advisor Strategy기존 (큰 모델이 오케스트레이터):Opus → 작업 분해 → Sonnet A, Sonnet B, Sonnet C→ Opus가 모든 계획을 짬Advisor Strategy (거꾸로):Sonnet → 혼자 다 처리 → 막히면 Opus한테 질문 ..

하네스 엔지니어링(Harness Engineering) 완전 정리 — AI가 좋은 코드를 짜게 만드는 법 2026년 3월 31일, Anthropic 엔지니어가 엄청난 실수를 했어요.npm 패키지 업데이트 하나에 Claude Code 소스코드 50만 줄이 통째로 들어간 거예요. 몇 시간 만에 GitHub 스타 5만 개. 개발자들이 회의를 취소하고 달려들었어요.근데 사람들이 주목한 건 모델이 아니었어요."모델이 아니라 모델을 감싼 구조가 진짜였다."이게 하네스 엔지니어링(Harness Engineering)이에요.하네스가 뭔가에이전트 = 모델 + 하네스모델: Claude, GPT, Gemini 등 LLM하네스: 모델 외 나머지 전부 → 툴 실행, 퍼미션, 컨텍스트 관리, 메모리, 피드백 루프, 에러 복구...Claude Code 유출로 밝혀진 것들이에요.퍼미션 게이트 달린 툴 4..

Claude Managed Agents 완전 분석 — 에이전트 배포가 며칠 만에 가능해진 이유 2026년 4월 8일, Anthropic이 공개 베타로 출시했어요.한 줄 요약:"에이전트 만드는 데 수개월 걸리던 인프라 작업을 Anthropic이 대신 다 해줄게."문제 — 에이전트 배포가 왜 이렇게 힘들었나지금까지 AI 에이전트를 프로덕션에 배포하려면 에이전트 자체 외에도 온갖 인프라를 직접 구축해야 했어요.기존 에이전트 배포:✅ 에이전트 로직 개발❌ 보안 샌드박스 컨테이너 설정❌ 세션 상태 관리 (중간에 크래시나면 데이터 날아감)❌ 툴 오케스트레이션❌ 퍼미션/인증 시스템❌ 모니터링/트레이싱❌ 스케일링 인프라→ 개발 기간: 수개월특히 기존 구조는 세션 + 하네스 + 샌드박스가 하나의 컨테이너에 묶여 있었어요. 크래시 한 번이면 세션 데이터 전체가 날아갔고, 디버깅하려면 사용자 데이터가 담긴 컨테이너에..

AI 네이티브 앱 아키텍처 설계 — 처음부터 AI를 고려한 풀스택 구조 (with Supabase) "AI 기능 추가해야 해"라는 말을 들으면 많은 개발자가 기존 앱에 LLM API 호출을 끼워 넣어요.# 이렇게 하면 안 돼요@app.post("/chat")def chat(message: str): response = openai.chat.completions.create(...) # 그냥 때려넣기 return response이렇게 만들면 사용자가 100명만 돼도 무너져요. LLM은 일반 API 호출과 물리학이 달라요.일반 API: 10~100ms, 결정론적, 토큰 비용 없음LLM API: 500ms~30초, 확률론적, 토큰마다 비용 발생이 차이가 아키텍처 전체를 바꿔요. 이번 글에서는 처음부터 AI를 고려한 풀스택 구조를 실전 코드와 함께 정리해 드릴게요.전체 아키텍처 구조백엔드 —..

AI 코딩 툴 3대장 완전 비교 — Cursor vs Claude Code vs GitHub Copilot 2026년 개발자 설문 결과가 충격적이었어요.Claude Code "가장 사랑하는 툴" 46%. Cursor 19%. GitHub Copilot 9%.Claude Code가 출시 8개월 만에 1위를 차지했어요. 근데 단순히 "어떤 게 최고야?" 라는 질문은 틀린 질문이에요.세 툴은 완전히 다른 문제를 해결해요. 잘못 고르면 매일 시간을 낭비하게 돼요.세 툴의 핵심 철학한 줄로 정리하면 이래요.GitHub Copilot → 맞춤법 검사기 (입력하는 동안 도와줌)Cursor → 글쓰기 코치 (같이 편집함)Claude Code → 유능한 주니어 개발자 (혼자서 해결함)비유하면 이렇게요. 문서 작성할 때 맞춤법 검사기, 편집자, 대필 작가는 다 "글쓰기 도구"지만 완전히 달라요.GitH..

모델보다 하네스가 제품을 결정한다 — 하네스 엔지니어링 완전 정리 (feat. Claude Code 분석) AI 에이전트를 만들다 보면 이런 경험을 하게 됩니다."GPT-4 쓰는데 왜 Claude Code보다 못하지? 모델이 비슷한데 결과가 왜 이렇게 다르지?"모델 성능 차이가 아니에요. 하네스 엔지니어링 수준 차이입니다. 이번 글에서는 하네스 엔지니어링이 뭔지, 어떤 구성요소로 이루어지는지, 그리고 Claude Code가 이걸 어떻게 구현했는지 분석해 드릴게요.하네스 엔지니어링이란?AI 에이전트가 "실험실에서 잘 되네" 수준을 넘어서 실제 프로덕션에서 안정적으로 동작하게 만드는 설계와 구축 작업 전체예요.모델은 이미 충분히 똑똑해요. GPT-4, Claude, Gemini 다 비슷한 수준이에요. 근데 어떤 제품은 잘 되고 어떤 제품은 망하는 이유가 뭐냐 — 하네스 엔지니어링 수준 차이입니다.실제 사례를 보면..

AI 에이전트가 실제로 일할 수 있는 이유 — Harness(하네스) 개념 완전 정리 AI 에이전트를 공부하다 보면 이런 의문이 생깁니다."LLM 모델 자체는 그냥 질문에 답하는 거잖아. 그럼 Claude Code나 Cursor는 어떻게 파일도 읽고 API도 호출하는 거지?"그 답이 바로 **하네스(Harness)**입니다. 이번 글에서는 하네스가 뭔지, Orchestrator와 어떻게 다른지, 실제 제품에서 어떻게 쓰이는지 정리해 드릴게요.모델 단독으로는 "실험실" 수준이다LLM 모델 자체는 "질문 받으면 답변 생성"하는 것밖에 못 해요. 실제 업무에 투입하면 세 가지 한계가 바로 드러납니다.첫째, 기억이 리셋됩니다. 대화가 끝나면 이전 맥락을 전혀 기억하지 못해요. 컨텍스트 창이 꽉 차면 앞 내용이 잘려나가기도 하고요.둘째, 에러가 나면 그냥 멈춥니다. API 호출이 실패하거나 도구 ..

이전 1 ··· 4 5 6 7 다음

티스토리툴바