반응형

LLM 43

AI 에이전트가 실제로 일할 수 있는 이유 — Harness(하네스) 개념 완전 정리

AI 에이전트를 공부하다 보면 이런 의문이 생깁니다."LLM 모델 자체는 그냥 질문에 답하는 거잖아. 그럼 Claude Code나 Cursor는 어떻게 파일도 읽고 API도 호출하는 거지?"그 답이 바로 **하네스(Harness)**입니다. 이번 글에서는 하네스가 뭔지, Orchestrator와 어떻게 다른지, 실제 제품에서 어떻게 쓰이는지 정리해 드릴게요.모델 단독으로는 "실험실" 수준이다LLM 모델 자체는 "질문 받으면 답변 생성"하는 것밖에 못 해요. 실제 업무에 투입하면 세 가지 한계가 바로 드러납니다.첫째, 기억이 리셋됩니다. 대화가 끝나면 이전 맥락을 전혀 기억하지 못해요. 컨텍스트 창이 꽉 차면 앞 내용이 잘려나가기도 하고요.둘째, 에러가 나면 그냥 멈춥니다. API 호출이 실패하거나 도구 ..

AI 개발 2026.03.25

[기초] LLM이 도구를 직접 호출한다 — Function Calling 원리와 구현 완전 정리

AI 에이전트를 만들다 보면 이런 상황이 생깁니다."LLM한테 날씨 알려달라고 했는데, 학습 데이터에 없는 오늘 날씨를 어떻게 알려주지?"LLM은 학습 데이터 기반으로만 답하기 때문에 실시간 정보나 외부 시스템과 연동이 안 돼요. 이걸 해결하는 게 Function Calling입니다. 이번 글에서는 Function Calling이 뭔지, 어떻게 동작하는지, 실제로 어떻게 구현하는지 정리해 드릴게요.Function Calling이란?Function Calling은 LLM이 응답을 생성할 때 "이 질문은 내가 직접 답하는 게 아니라 이 함수를 호출해야 한다" 고 판단해서 함수 호출 정보를 반환하는 기능이에요.중요한 건 LLM이 함수를 직접 실행하는 게 아니라는 점이에요. LLM은 "어떤 함수를 어떤 인자로 ..

LLM 2026.03.25

sglang vs vLLM — 오픈소스 LLM 서빙 프레임워크 실전 비교

오픈소스 LLM을 직접 서빙하려고 하면 이 두 개를 반드시 마주치게 됩니다."sglang이랑 vLLM 중에 뭐 써야 하지?"둘 다 LLM을 HTTP API로 서빙하는 프레임워크인데, 설계 철학과 강점이 달라요. 이번 글에서는 실전 관점에서 두 프레임워크를 비교해 드릴게요.먼저 둘 다 뭔지부터vLLM은 2023년 UC Berkeley에서 발표한 LLM 서빙 프레임워크예요. PagedAttention이라는 메모리 관리 기법을 처음 도입해서 GPU 메모리 효율을 획기적으로 높인 프레임워크입니다. OpenAI API와 호환되는 엔드포인트를 제공해서 기존 코드를 거의 수정 없이 연결할 수 있어요.sglang은 2024년 Stanford에서 발표한 프레임워크예요. RadixAttention이라는 KV 캐시 공유 기..

LLM 2026.03.24

Thought, Action, Observation을 코드로 — LangGraph + ReAct 완전 정리

AI 에이전트를 만들다 보면 이런 상황이 생깁니다."LLM이 도구를 써야 할 때도 있고, 바로 답할 수 있을 때도 있는데 이걸 어떻게 처리하지?"이걸 깔끔하게 해결하는 패턴이 ReAct이고, 이를 코드로 명시적으로 구현할 수 있게 해주는 프레임워크가 LangGraph입니다. 이번 글에서는 LangGraph가 뭔지부터 ReAct 패턴을 실제로 어떻게 구현하는지까지 정리해 드릴게요.LangGraph란?LangGraph는 LangChain 팀이 만든 상태 기반 AI 워크플로우 프레임워크예요. 2024년 1월에 출시됐으며, AI 에이전트의 복잡한 흐름을 그래프 구조로 명시적으로 표현할 수 있게 해줍니다.기존 LangChain만으로도 에이전트를 만들 수 있었지만 세 가지 문제가 있었어요.첫째, 루프 구현이 어렵습..

AI Agent 2026.03.24

[실전] 멀티 에이전트 시스템의 실무자들 — Sub-Agent 설계와 구현 완전 정리

지난 글에서 Orchestrator가 매 스텝마다 LLM으로 다음 task를 동적으로 선택하고 sub-agent를 호출하는 구조를 설명했어요. 이번 글에서는 그 호출을 실제로 받아서 처리하는 Sub-Agent를 어떻게 만드는지 구현 관점에서 정리해 드릴게요.Sub-Agent가 하는 일Sub-Agent는 단순합니다. Orchestrator로부터 task를 받아서 처리하고, 결과를 돌려주는 게 전부예요.Orchestrator → POST /invoke → Sub-Agent → 결과 반환핵심은 "어떤 Sub-Agent든 동일한 인터페이스로 통신한다" 는 점이에요. Orchestrator 입장에서는 SQL 에이전트든 검색 에이전트든 동일한 방식으로 호출할 수 있어야 해요.전체 구조Sub-Agent는 크게 4개 ..

AI Agent 2026.03.24

[실전] 매 스텝마다 LLM이 다음 할 일을 고른다 — 자동 워크플로우 Orchestrator 구현기

AI Agent 시스템을 만들다 보면 이런 고민이 생깁니다."워크플로우를 미리 다 정의해두면, 예상 못 한 요청이 들어왔을 때 대응이 안 되는데?"기존 수동 워크플로우 방식은 task를 미리 정의된 순서에 따라 실행했어요. 그래서 유연하지 못했습니다. 이번 글에서는 그 한계를 깨고, LLM이 매 스텝마다 다음 task를 동적으로 선택하는 자동 워크플로우 구성 방식의 핵심 동작 원리를 설명해 드릴게요.수동 vs 자동, 뭐가 다른가구분 수동 워크플로우 자동 워크플로우task 선택미리 정의된 순서대로매 스텝마다 LLM이 동적 선택input 추출전체 input 한 번에 추출이전 task 결과를 다음 input으로 활용실행 방식병렬/순차 (독립적)결과 누적 → 반복 → done유연성낮음높음핵심 차이는 "워크플로우..

AI Agent 2026.03.24

기존 RAG의 한계를 그래프로 돌파한다 — Graph RAG 동작 원리 완전 정리

RAG(Retrieval Augmented Generation)를 써보셨다면 이런 답답함을 느끼신 적 있으실 거예요."분명히 관련 문서인데, 왜 엉뚱한 답이 나오지?"이건 기존 RAG의 구조적인 한계 때문입니다. 이번 글에서는 그 한계를 그래프 기반으로 돌파한 Graph RAG의 개념과 동작 원리를 처음부터 끝까지 정리해 드릴게요.기존 RAG의 문제점기존 RAG는 문서를 chunk 단위로 잘라서 관련 chunk를 검색한 뒤 LLM에 넘겨주는 방식이에요.여기서 두 가지 문제가 생깁니다.첫째, 연결 관계를 놓칩니다. 문서를 잘게 쪼개다 보면 chunk 사이의 맥락과 관계가 끊겨요. "A는 B의 원인이다"라는 정보가 두 chunk에 걸쳐 있으면 그냥 사라지는 거예요.둘째, context가 LLM 처리 용량을 ..

RAG 2026.03.24

[실전] AI한테 AI 감시시키기 — 멀티 에이전트 워크플로우 직접 구현해봤습니다 (Antigravity 워크플로우)

Antigravity에 멀티 에이전트 워크플로우를 추가해봤습니다AI 개발 도구를 쓰다 보면 한 번쯤 이런 생각이 드실 거예요."코드 짜는 AI, 검토하는 AI, 진행 관리하는 AI가 따로따로 있으면 어떨까?"그게 바로 멀티 에이전트 워크플로우입니다. 이번 글에서는 제가 Antigravity에 이 구조를 직접 구현해본 경험을 공유해 드릴게요.Antigravity가 뭔가요?Antigravity는 AI 에이전트 기반 개발 자동화 프레임워크입니다. Claude나 GPT 같은 LLM을 여러 개 연결해서 개발 작업을 자동으로 처리할 수 있게 해주는 툴이에요. 단순히 코드 한 줄 생성하는 수준이 아니라, 기획부터 구현, 검토까지 파이프라인 형태로 구성할 수 있다는 게 특징입니다.어떤 구조로 만들었냐면요총 5단계 워크..

AI Agent 2026.03.24

[실전] 오픈소스 LLM 기반 멀티 에이전트 챗봇 제작기

미리 결론: 좋은 LLM API로 호출해서 사용합시다.여러 명의 AI 친구들이 서로 협력해서 어려운 질문에도 척척 대답해 주는 멀티 에이전트 챗봇 시스템을 만들어 봤읍니다.1. 시스템 개요1.1 시스템 목적제가 만든 이 시스템은 데이터 분석 기반 사용자 질의 응답 시스템입니다. 사용자가 평소에 친구와 대화하듯 자연스럽게 물어보는 질문을 찰떡같이 이해하고, 데이터를 검색하거나 지식 베이스를 뒤져서 정답을 찾아주는 아주 똑똑한 역할을 수행한답니다.1.2 핵심 특징제가 이 시스템을 만들면서 꼭 넣고 싶었던 일곱 가지 특별한 장점들이에요!멀티 에이전트 아키텍처: 모든 것을 조율하는 1개의 Orchestrator Agent와 각 분야의 전문가인 여러 개의 Sub-Agent들이 한 팀이 되어 일하도록 만들었습니다...

AI Agent 2026.03.24

[실전] B300 GPU에서 SGLANG으로 gpt-oss-20b 서빙하기 (CUDA 13 버전 해결법)

안녕하세요! 오늘은 최신 사양인 B300 GPU에서 SGLANG을 사용해 gpt-oss-20b 모델을 올리는 방법을 알아보겠습니다. 일반적인 방식으로는 CUDA 버전이 맞지 않아 오류가 날 수 있는데, 이를 어떻게 해결했는지 공유해 드릴게요.1. 왜 latest 이미지 대신 dev-cu13인가요?처음에는 SGLANG의 latest 태그 이미지를 사용해서 실행해 보았습니다. 하지만 B300 하드웨어는 아주 최신이라서, 기존 이미지에 들어있는 CUDA 버전과 맞지 않는 문제가 발생했어요.그래서 저는 CUDA 13이 포함된 lmsysorg/sglang:dev-cu13 이미지를 사용했습니다. 최신 그래픽 카드의 성능을 제대로 쓰려면 꼭 이 버전을 확인해야 합니다!2. Docker 실행 명령어제가 성공한 Dock..

AI Agent 2026.03.24
반응형