본문 바로가기

분류 전체보기

(172)

AI 에이전트가 긴 작업을 끝까지 해내는 법 — 컨텍스트 압축 전략 완전 정리 AI 에이전트로 긴 작업을 시키다 보면 이런 일이 생겨요."분명히 앞에서 결정한 내용인데 에이전트가 또 같은 실수를 하네?"컨텍스트 창이 꽉 찼거나, 중요한 정보가 밀려나버린 거예요. 이 문제를 어떻게 해결하느냐가 프로덕션 수준의 에이전트를 만드는 핵심입니다. 이번 글에서는 컨텍스트 압축의 세 가지 전략과 실제로 어떻게 조합해서 쓰는지 정리해 드릴게요.왜 컨텍스트 관리가 중요한가모델의 컨텍스트 창은 유한해요. 긴 작업을 하다 보면 툴 출력, 중간 대화, 오류 메시지들이 쌓여서 창을 잠식합니다. 새로운 정보가 들어올 자리가 없어지고, 중요한 정보가 창 밖으로 밀려나기 시작하면 에이전트가 앞서 한 결정을 기억하지 못하거나 같은 실수를 반복해요.이걸 **컨텍스트 표류(Context Drift)**라고 해요. ..

Vercel이 툴을 줄여서 성능을 올린 방법 — AI 에이전트 툴 설계 가이드 AI 에이전트를 만들 때 흔히 하는 실수가 있어요."툴을 많이 줄수록 에이전트가 더 잘하겠지."Vercel AI SDK 팀이 정확히 이 생각으로 접근했다가 반대 결과를 경험했어요. 툴을 계속 추가했더니 어느 순간부터 오히려 성능이 떨어졌고, 툴을 80%까지 줄였더니 성능이 올라갔습니다.이번 글에서는 왜 이런 일이 생기는지, 그리고 툴을 어떻게 설계해야 하는지 정리해 드릴게요.왜 툴이 많으면 성능이 떨어지나이유 1: 선택 비용 (Choice Overhead)모델이 툴을 고를 때마다 의사결정을 해야 해요. 툴이 5개면 "이 중에 뭘 써야 하지?"가 간단한 문제지만, 툴이 50개면 모델이 정의를 전부 읽고 비교하고 선택해야 합니다. 이 과정에서 추론 토큰이 낭비되고, 잘못된 툴을 고를 확률도 올라가요.인간도 ..

모델보다 하네스가 제품을 결정한다 — 하네스 엔지니어링 완전 정리 (feat. Claude Code 분석) AI 에이전트를 만들다 보면 이런 경험을 하게 됩니다."GPT-4 쓰는데 왜 Claude Code보다 못하지? 모델이 비슷한데 결과가 왜 이렇게 다르지?"모델 성능 차이가 아니에요. 하네스 엔지니어링 수준 차이입니다. 이번 글에서는 하네스 엔지니어링이 뭔지, 어떤 구성요소로 이루어지는지, 그리고 Claude Code가 이걸 어떻게 구현했는지 분석해 드릴게요.하네스 엔지니어링이란?AI 에이전트가 "실험실에서 잘 되네" 수준을 넘어서 실제 프로덕션에서 안정적으로 동작하게 만드는 설계와 구축 작업 전체예요.모델은 이미 충분히 똑똑해요. GPT-4, Claude, Gemini 다 비슷한 수준이에요. 근데 어떤 제품은 잘 되고 어떤 제품은 망하는 이유가 뭐냐 — 하네스 엔지니어링 수준 차이입니다.실제 사례를 보면..

AI 에이전트가 실제로 일할 수 있는 이유 — Harness(하네스) 개념 완전 정리 AI 에이전트를 공부하다 보면 이런 의문이 생깁니다."LLM 모델 자체는 그냥 질문에 답하는 거잖아. 그럼 Claude Code나 Cursor는 어떻게 파일도 읽고 API도 호출하는 거지?"그 답이 바로 **하네스(Harness)**입니다. 이번 글에서는 하네스가 뭔지, Orchestrator와 어떻게 다른지, 실제 제품에서 어떻게 쓰이는지 정리해 드릴게요.모델 단독으로는 "실험실" 수준이다LLM 모델 자체는 "질문 받으면 답변 생성"하는 것밖에 못 해요. 실제 업무에 투입하면 세 가지 한계가 바로 드러납니다.첫째, 기억이 리셋됩니다. 대화가 끝나면 이전 맥락을 전혀 기억하지 못해요. 컨텍스트 창이 꽉 차면 앞 내용이 잘려나가기도 하고요.둘째, 에러가 나면 그냥 멈춥니다. API 호출이 실패하거나 도구 ..

[기초] LLM이 도구를 직접 호출한다 — Function Calling 원리와 구현 완전 정리 AI 에이전트를 만들다 보면 이런 상황이 생깁니다."LLM한테 날씨 알려달라고 했는데, 학습 데이터에 없는 오늘 날씨를 어떻게 알려주지?"LLM은 학습 데이터 기반으로만 답하기 때문에 실시간 정보나 외부 시스템과 연동이 안 돼요. 이걸 해결하는 게 Function Calling입니다. 이번 글에서는 Function Calling이 뭔지, 어떻게 동작하는지, 실제로 어떻게 구현하는지 정리해 드릴게요.Function Calling이란?Function Calling은 LLM이 응답을 생성할 때 "이 질문은 내가 직접 답하는 게 아니라 이 함수를 호출해야 한다" 고 판단해서 함수 호출 정보를 반환하는 기능이에요.중요한 건 LLM이 함수를 직접 실행하는 게 아니라는 점이에요. LLM은 "어떤 함수를 어떤 인자로 ..

sglang vs vLLM — 오픈소스 LLM 서빙 프레임워크 실전 비교 오픈소스 LLM을 직접 서빙하려고 하면 이 두 개를 반드시 마주치게 됩니다."sglang이랑 vLLM 중에 뭐 써야 하지?"둘 다 LLM을 HTTP API로 서빙하는 프레임워크인데, 설계 철학과 강점이 달라요. 이번 글에서는 실전 관점에서 두 프레임워크를 비교해 드릴게요.먼저 둘 다 뭔지부터vLLM은 2023년 UC Berkeley에서 발표한 LLM 서빙 프레임워크예요. PagedAttention이라는 메모리 관리 기법을 처음 도입해서 GPU 메모리 효율을 획기적으로 높인 프레임워크입니다. OpenAI API와 호환되는 엔드포인트를 제공해서 기존 코드를 거의 수정 없이 연결할 수 있어요.sglang은 2024년 Stanford에서 발표한 프레임워크예요. RadixAttention이라는 KV 캐시 공유 기..

Thought, Action, Observation을 코드로 — LangGraph + ReAct 완전 정리 AI 에이전트를 만들다 보면 이런 상황이 생깁니다."LLM이 도구를 써야 할 때도 있고, 바로 답할 수 있을 때도 있는데 이걸 어떻게 처리하지?"이걸 깔끔하게 해결하는 패턴이 ReAct이고, 이를 코드로 명시적으로 구현할 수 있게 해주는 프레임워크가 LangGraph입니다. 이번 글에서는 LangGraph가 뭔지부터 ReAct 패턴을 실제로 어떻게 구현하는지까지 정리해 드릴게요.LangGraph란?LangGraph는 LangChain 팀이 만든 상태 기반 AI 워크플로우 프레임워크예요. 2024년 1월에 출시됐으며, AI 에이전트의 복잡한 흐름을 그래프 구조로 명시적으로 표현할 수 있게 해줍니다.기존 LangChain만으로도 에이전트를 만들 수 있었지만 세 가지 문제가 있었어요.첫째, 루프 구현이 어렵습..

[실전] 멀티 에이전트 시스템의 실무자들 — Sub-Agent 설계와 구현 완전 정리 지난 글에서 Orchestrator가 매 스텝마다 LLM으로 다음 task를 동적으로 선택하고 sub-agent를 호출하는 구조를 설명했어요. 이번 글에서는 그 호출을 실제로 받아서 처리하는 Sub-Agent를 어떻게 만드는지 구현 관점에서 정리해 드릴게요.Sub-Agent가 하는 일Sub-Agent는 단순합니다. Orchestrator로부터 task를 받아서 처리하고, 결과를 돌려주는 게 전부예요.Orchestrator → POST /invoke → Sub-Agent → 결과 반환핵심은 "어떤 Sub-Agent든 동일한 인터페이스로 통신한다" 는 점이에요. Orchestrator 입장에서는 SQL 에이전트든 검색 에이전트든 동일한 방식으로 호출할 수 있어야 해요.전체 구조Sub-Agent는 크게 4개 ..

이전 1 ··· 17 18 19 20 21 22 다음

티스토리툴바