본문 바로가기

반응형

전체 글

(172)
AI 에이전트의 뇌는 어떻게 작동하나 — 다단계 추론, 자율 교정, 멀티 에이전트 한 번에 정리 AI 에이전트를 처음 만들면 이런 의문이 생깁니다."LLM이 그냥 질문에 답하는 거랑, 에이전트가 작업을 처리하는 거랑 뭐가 다른 거지?"차이는 스스로 생각하고, 행동하고, 결과를 보고 수정하는 능력에 있습니다. 이번 글에서는 고급 AI 에이전트의 핵심 개념인 다단계 추론, 자율 교정, 멀티 에이전트 시스템을 이론 중심으로 정리해 드릴게요.1. 다단계 추론 (Multi-step Reasoning)다단계 추론은 AI 에이전트가 복잡한 목표를 여러 개의 작은 단계로 나누어 순차적으로 해결하는 능력이에요. 사람이 복잡한 프로젝트를 여러 태스크로 쪼개서 실행하는 것과 같아요.동작 방식목표 분석 — 최종 목표를 파악하고, 어떤 정보가 필요한지, 어떤 도구를 써야 하는지 추론합니다.계획 수립 — 분석된 정보를 바탕..
벡터 검색 정확도 올리는 법 — 임베딩 모델 선택부터 HNSW 튜닝, Reranking까지 벡터 검색을 붙여봤는데 결과가 기대보다 별로라는 경험, 한 번쯤 있으실 거예요."분명히 관련 있는 문서인데 왜 안 나오지?"이번 글에서는 벡터 검색 정확도를 높이는 방법을 임베딩 모델 선택부터 Reranking까지 단계별로 정리해 드릴게요.1. 좋은 임베딩 모델 선택벡터 검색 정확도의 기반은 임베딩 모델이에요. 모델이 좋아야 검색 품질이 올라갑니다.현재 성능이 검증된 모델들은 이렇습니다.BGE (bge-large, bge-m3) — 최근 벤치마크에서 성능 좋음E5 (e5-large, e5-mistral) — 다양한 벤치마크에서 우수한 성능Qwen-Embedding — 최근 MTEB 벤치마크에서 최상위권, 다국어 지원 강력MiniLM, Contriever — 가볍지만 성능 괜찮음OpenAI Embeddin..
[실전] 매 스텝마다 LLM이 다음 할 일을 고른다 — 자동 워크플로우 Orchestrator 구현기 AI Agent 시스템을 만들다 보면 이런 고민이 생깁니다."워크플로우를 미리 다 정의해두면, 예상 못 한 요청이 들어왔을 때 대응이 안 되는데?"기존 수동 워크플로우 방식은 task를 미리 정의된 순서에 따라 실행했어요. 그래서 유연하지 못했습니다. 이번 글에서는 그 한계를 깨고, LLM이 매 스텝마다 다음 task를 동적으로 선택하는 자동 워크플로우 구성 방식의 핵심 동작 원리를 설명해 드릴게요.수동 vs 자동, 뭐가 다른가구분 수동 워크플로우 자동 워크플로우task 선택미리 정의된 순서대로매 스텝마다 LLM이 동적 선택input 추출전체 input 한 번에 추출이전 task 결과를 다음 input으로 활용실행 방식병렬/순차 (독립적)결과 누적 → 반복 → done유연성낮음높음핵심 차이는 "워크플로우..
기존 RAG의 한계를 그래프로 돌파한다 — Graph RAG 동작 원리 완전 정리 RAG(Retrieval Augmented Generation)를 써보셨다면 이런 답답함을 느끼신 적 있으실 거예요."분명히 관련 문서인데, 왜 엉뚱한 답이 나오지?"이건 기존 RAG의 구조적인 한계 때문입니다. 이번 글에서는 그 한계를 그래프 기반으로 돌파한 Graph RAG의 개념과 동작 원리를 처음부터 끝까지 정리해 드릴게요.기존 RAG의 문제점기존 RAG는 문서를 chunk 단위로 잘라서 관련 chunk를 검색한 뒤 LLM에 넘겨주는 방식이에요.여기서 두 가지 문제가 생깁니다.첫째, 연결 관계를 놓칩니다. 문서를 잘게 쪼개다 보면 chunk 사이의 맥락과 관계가 끊겨요. "A는 B의 원인이다"라는 정보가 두 chunk에 걸쳐 있으면 그냥 사라지는 거예요.둘째, context가 LLM 처리 용량을 ..
검색 결과 순서가 바뀌는 원리 — TF-IDF, BM25, 쿼리 튜닝 한 번에 정리 (Elasticsearch) Elasticsearch 검색 점수의 비밀 — TF-IDF부터 BM25 튜닝까지 한 번에 정리했습니다Elasticsearch로 검색 기능을 만들다 보면 이런 의문이 생기실 거예요."왜 이 문서가 1등이지? 검색 점수는 도대체 어떻게 계산되는 거야?"이번 글에서는 Elasticsearch 검색 점수의 핵심 알고리즘인 TF-IDF와 BM25, 그리고 실무에서 쓰는 튜닝 방법까지 한 번에 정리해 드릴게요.1. 핵심 원리 — TF-IDF와 BM25는 뭘 보는가두 알고리즘의 평가 기준은 같습니다."문서 안에서 자주 등장하지만(TF 높음), 전체 문서에서는 희귀한 단어(IDF 높음)일수록 그 문서를 대표하는 핵심 키워드다."쉽게 말하면 "엘라스틱서치"라는 단어가 전체 문서 중 딱 몇 개에만 나오는데, 그 문서 안에..
[실전] AI한테 AI 감시시키기 — 멀티 에이전트 워크플로우 직접 구현해봤습니다 (Antigravity 워크플로우) Antigravity에 멀티 에이전트 워크플로우를 추가해봤습니다AI 개발 도구를 쓰다 보면 한 번쯤 이런 생각이 드실 거예요."코드 짜는 AI, 검토하는 AI, 진행 관리하는 AI가 따로따로 있으면 어떨까?"그게 바로 멀티 에이전트 워크플로우입니다. 이번 글에서는 제가 Antigravity에 이 구조를 직접 구현해본 경험을 공유해 드릴게요.Antigravity가 뭔가요?Antigravity는 AI 에이전트 기반 개발 자동화 프레임워크입니다. Claude나 GPT 같은 LLM을 여러 개 연결해서 개발 작업을 자동으로 처리할 수 있게 해주는 툴이에요. 단순히 코드 한 줄 생성하는 수준이 아니라, 기획부터 구현, 검토까지 파이프라인 형태로 구성할 수 있다는 게 특징입니다.어떤 구조로 만들었냐면요총 5단계 워크..
[실전] 오픈소스 LLM 기반 멀티 에이전트 챗봇 제작기 미리 결론: 좋은 LLM API로 호출해서 사용합시다.여러 명의 AI 친구들이 서로 협력해서 어려운 질문에도 척척 대답해 주는 멀티 에이전트 챗봇 시스템을 만들어 봤읍니다.1. 시스템 개요1.1 시스템 목적제가 만든 이 시스템은 데이터 분석 기반 사용자 질의 응답 시스템입니다. 사용자가 평소에 친구와 대화하듯 자연스럽게 물어보는 질문을 찰떡같이 이해하고, 데이터를 검색하거나 지식 베이스를 뒤져서 정답을 찾아주는 아주 똑똑한 역할을 수행한답니다.1.2 핵심 특징제가 이 시스템을 만들면서 꼭 넣고 싶었던 일곱 가지 특별한 장점들이에요!멀티 에이전트 아키텍처: 모든 것을 조율하는 1개의 Orchestrator Agent와 각 분야의 전문가인 여러 개의 Sub-Agent들이 한 팀이 되어 일하도록 만들었습니다...
[실전] B300 GPU에서 SGLANG으로 gpt-oss-20b 서빙하기 (CUDA 13 버전 해결법) 안녕하세요! 오늘은 최신 사양인 B300 GPU에서 SGLANG을 사용해 gpt-oss-20b 모델을 올리는 방법을 알아보겠습니다. 일반적인 방식으로는 CUDA 버전이 맞지 않아 오류가 날 수 있는데, 이를 어떻게 해결했는지 공유해 드릴게요.1. 왜 latest 이미지 대신 dev-cu13인가요?처음에는 SGLANG의 latest 태그 이미지를 사용해서 실행해 보았습니다. 하지만 B300 하드웨어는 아주 최신이라서, 기존 이미지에 들어있는 CUDA 버전과 맞지 않는 문제가 발생했어요.그래서 저는 CUDA 13이 포함된 lmsysorg/sglang:dev-cu13 이미지를 사용했습니다. 최신 그래픽 카드의 성능을 제대로 쓰려면 꼭 이 버전을 확인해야 합니다!2. Docker 실행 명령어제가 성공한 Dock..

반응형