반응형

2026/03/24 15

sglang vs vLLM — 오픈소스 LLM 서빙 프레임워크 실전 비교

오픈소스 LLM을 직접 서빙하려고 하면 이 두 개를 반드시 마주치게 됩니다."sglang이랑 vLLM 중에 뭐 써야 하지?"둘 다 LLM을 HTTP API로 서빙하는 프레임워크인데, 설계 철학과 강점이 달라요. 이번 글에서는 실전 관점에서 두 프레임워크를 비교해 드릴게요.먼저 둘 다 뭔지부터vLLM은 2023년 UC Berkeley에서 발표한 LLM 서빙 프레임워크예요. PagedAttention이라는 메모리 관리 기법을 처음 도입해서 GPU 메모리 효율을 획기적으로 높인 프레임워크입니다. OpenAI API와 호환되는 엔드포인트를 제공해서 기존 코드를 거의 수정 없이 연결할 수 있어요.sglang은 2024년 Stanford에서 발표한 프레임워크예요. RadixAttention이라는 KV 캐시 공유 기..

LLM 2026.03.24

Thought, Action, Observation을 코드로 — LangGraph + ReAct 완전 정리

AI 에이전트를 만들다 보면 이런 상황이 생깁니다."LLM이 도구를 써야 할 때도 있고, 바로 답할 수 있을 때도 있는데 이걸 어떻게 처리하지?"이걸 깔끔하게 해결하는 패턴이 ReAct이고, 이를 코드로 명시적으로 구현할 수 있게 해주는 프레임워크가 LangGraph입니다. 이번 글에서는 LangGraph가 뭔지부터 ReAct 패턴을 실제로 어떻게 구현하는지까지 정리해 드릴게요.LangGraph란?LangGraph는 LangChain 팀이 만든 상태 기반 AI 워크플로우 프레임워크예요. 2024년 1월에 출시됐으며, AI 에이전트의 복잡한 흐름을 그래프 구조로 명시적으로 표현할 수 있게 해줍니다.기존 LangChain만으로도 에이전트를 만들 수 있었지만 세 가지 문제가 있었어요.첫째, 루프 구현이 어렵습..

AI Agent 2026.03.24

[실전] 멀티 에이전트 시스템의 실무자들 — Sub-Agent 설계와 구현 완전 정리

지난 글에서 Orchestrator가 매 스텝마다 LLM으로 다음 task를 동적으로 선택하고 sub-agent를 호출하는 구조를 설명했어요. 이번 글에서는 그 호출을 실제로 받아서 처리하는 Sub-Agent를 어떻게 만드는지 구현 관점에서 정리해 드릴게요.Sub-Agent가 하는 일Sub-Agent는 단순합니다. Orchestrator로부터 task를 받아서 처리하고, 결과를 돌려주는 게 전부예요.Orchestrator → POST /invoke → Sub-Agent → 결과 반환핵심은 "어떤 Sub-Agent든 동일한 인터페이스로 통신한다" 는 점이에요. Orchestrator 입장에서는 SQL 에이전트든 검색 에이전트든 동일한 방식으로 호출할 수 있어야 해요.전체 구조Sub-Agent는 크게 4개 ..

AI Agent 2026.03.24

AI 에이전트의 뇌는 어떻게 작동하나 — 다단계 추론, 자율 교정, 멀티 에이전트 한 번에 정리

AI 에이전트를 처음 만들면 이런 의문이 생깁니다."LLM이 그냥 질문에 답하는 거랑, 에이전트가 작업을 처리하는 거랑 뭐가 다른 거지?"차이는 스스로 생각하고, 행동하고, 결과를 보고 수정하는 능력에 있습니다. 이번 글에서는 고급 AI 에이전트의 핵심 개념인 다단계 추론, 자율 교정, 멀티 에이전트 시스템을 이론 중심으로 정리해 드릴게요.1. 다단계 추론 (Multi-step Reasoning)다단계 추론은 AI 에이전트가 복잡한 목표를 여러 개의 작은 단계로 나누어 순차적으로 해결하는 능력이에요. 사람이 복잡한 프로젝트를 여러 태스크로 쪼개서 실행하는 것과 같아요.동작 방식목표 분석 — 최종 목표를 파악하고, 어떤 정보가 필요한지, 어떤 도구를 써야 하는지 추론합니다.계획 수립 — 분석된 정보를 바탕..

AI Agent 2026.03.24

벡터 검색 정확도 올리는 법 — 임베딩 모델 선택부터 HNSW 튜닝, Reranking까지

벡터 검색을 붙여봤는데 결과가 기대보다 별로라는 경험, 한 번쯤 있으실 거예요."분명히 관련 있는 문서인데 왜 안 나오지?"이번 글에서는 벡터 검색 정확도를 높이는 방법을 임베딩 모델 선택부터 Reranking까지 단계별로 정리해 드릴게요.1. 좋은 임베딩 모델 선택벡터 검색 정확도의 기반은 임베딩 모델이에요. 모델이 좋아야 검색 품질이 올라갑니다.현재 성능이 검증된 모델들은 이렇습니다.BGE (bge-large, bge-m3) — 최근 벤치마크에서 성능 좋음E5 (e5-large, e5-mistral) — 다양한 벤치마크에서 우수한 성능Qwen-Embedding — 최근 MTEB 벤치마크에서 최상위권, 다국어 지원 강력MiniLM, Contriever — 가볍지만 성능 괜찮음OpenAI Embeddin..

RAG 2026.03.24

[실전] 매 스텝마다 LLM이 다음 할 일을 고른다 — 자동 워크플로우 Orchestrator 구현기

AI Agent 시스템을 만들다 보면 이런 고민이 생깁니다."워크플로우를 미리 다 정의해두면, 예상 못 한 요청이 들어왔을 때 대응이 안 되는데?"기존 수동 워크플로우 방식은 task를 미리 정의된 순서에 따라 실행했어요. 그래서 유연하지 못했습니다. 이번 글에서는 그 한계를 깨고, LLM이 매 스텝마다 다음 task를 동적으로 선택하는 자동 워크플로우 구성 방식의 핵심 동작 원리를 설명해 드릴게요.수동 vs 자동, 뭐가 다른가구분 수동 워크플로우 자동 워크플로우task 선택미리 정의된 순서대로매 스텝마다 LLM이 동적 선택input 추출전체 input 한 번에 추출이전 task 결과를 다음 input으로 활용실행 방식병렬/순차 (독립적)결과 누적 → 반복 → done유연성낮음높음핵심 차이는 "워크플로우..

AI Agent 2026.03.24

기존 RAG의 한계를 그래프로 돌파한다 — Graph RAG 동작 원리 완전 정리

RAG(Retrieval Augmented Generation)를 써보셨다면 이런 답답함을 느끼신 적 있으실 거예요."분명히 관련 문서인데, 왜 엉뚱한 답이 나오지?"이건 기존 RAG의 구조적인 한계 때문입니다. 이번 글에서는 그 한계를 그래프 기반으로 돌파한 Graph RAG의 개념과 동작 원리를 처음부터 끝까지 정리해 드릴게요.기존 RAG의 문제점기존 RAG는 문서를 chunk 단위로 잘라서 관련 chunk를 검색한 뒤 LLM에 넘겨주는 방식이에요.여기서 두 가지 문제가 생깁니다.첫째, 연결 관계를 놓칩니다. 문서를 잘게 쪼개다 보면 chunk 사이의 맥락과 관계가 끊겨요. "A는 B의 원인이다"라는 정보가 두 chunk에 걸쳐 있으면 그냥 사라지는 거예요.둘째, context가 LLM 처리 용량을 ..

RAG 2026.03.24

검색 결과 순서가 바뀌는 원리 — TF-IDF, BM25, 쿼리 튜닝 한 번에 정리 (Elasticsearch)

Elasticsearch 검색 점수의 비밀 — TF-IDF부터 BM25 튜닝까지 한 번에 정리했습니다Elasticsearch로 검색 기능을 만들다 보면 이런 의문이 생기실 거예요."왜 이 문서가 1등이지? 검색 점수는 도대체 어떻게 계산되는 거야?"이번 글에서는 Elasticsearch 검색 점수의 핵심 알고리즘인 TF-IDF와 BM25, 그리고 실무에서 쓰는 튜닝 방법까지 한 번에 정리해 드릴게요.1. 핵심 원리 — TF-IDF와 BM25는 뭘 보는가두 알고리즘의 평가 기준은 같습니다."문서 안에서 자주 등장하지만(TF 높음), 전체 문서에서는 희귀한 단어(IDF 높음)일수록 그 문서를 대표하는 핵심 키워드다."쉽게 말하면 "엘라스틱서치"라는 단어가 전체 문서 중 딱 몇 개에만 나오는데, 그 문서 안에..

DB 2026.03.24

[실전] AI한테 AI 감시시키기 — 멀티 에이전트 워크플로우 직접 구현해봤습니다 (Antigravity 워크플로우)

Antigravity에 멀티 에이전트 워크플로우를 추가해봤습니다AI 개발 도구를 쓰다 보면 한 번쯤 이런 생각이 드실 거예요."코드 짜는 AI, 검토하는 AI, 진행 관리하는 AI가 따로따로 있으면 어떨까?"그게 바로 멀티 에이전트 워크플로우입니다. 이번 글에서는 제가 Antigravity에 이 구조를 직접 구현해본 경험을 공유해 드릴게요.Antigravity가 뭔가요?Antigravity는 AI 에이전트 기반 개발 자동화 프레임워크입니다. Claude나 GPT 같은 LLM을 여러 개 연결해서 개발 작업을 자동으로 처리할 수 있게 해주는 툴이에요. 단순히 코드 한 줄 생성하는 수준이 아니라, 기획부터 구현, 검토까지 파이프라인 형태로 구성할 수 있다는 게 특징입니다.어떤 구조로 만들었냐면요총 5단계 워크..

AI Agent 2026.03.24

[실전] 오픈소스 LLM 기반 멀티 에이전트 챗봇 제작기

미리 결론: 좋은 LLM API로 호출해서 사용합시다.여러 명의 AI 친구들이 서로 협력해서 어려운 질문에도 척척 대답해 주는 멀티 에이전트 챗봇 시스템을 만들어 봤읍니다.1. 시스템 개요1.1 시스템 목적제가 만든 이 시스템은 데이터 분석 기반 사용자 질의 응답 시스템입니다. 사용자가 평소에 친구와 대화하듯 자연스럽게 물어보는 질문을 찰떡같이 이해하고, 데이터를 검색하거나 지식 베이스를 뒤져서 정답을 찾아주는 아주 똑똑한 역할을 수행한답니다.1.2 핵심 특징제가 이 시스템을 만들면서 꼭 넣고 싶었던 일곱 가지 특별한 장점들이에요!멀티 에이전트 아키텍처: 모든 것을 조율하는 1개의 Orchestrator Agent와 각 분야의 전문가인 여러 개의 Sub-Agent들이 한 팀이 되어 일하도록 만들었습니다...

AI Agent 2026.03.24
반응형