본문 바로가기

전체 글

(172)

[기초] LLM이 더 똑똑하게 생각하게 만드는 법 — CoT, ToT, Self-Consistency 완전 비교 LLM을 쓰다 보면 이런 상황이 생겨요."분명히 풀 수 있는 문제인데 틀린 답을 내놓네. 어떻게 하면 더 정확하게 추론하게 만들지?"모델을 바꾸거나 파인튜닝하지 않아도 추론 방식을 바꾸는 것만으로 정확도를 크게 올릴 수 있어요. 이번 글에서는 세 가지 핵심 추론 기법 — Chain-of-Thought, Tree-of-Thought, Self-Consistency — 을 원리부터 실전 적용까지 비교해 드릴게요.왜 추론 기법이 필요한가LLM은 기본적으로 다음 토큰을 예측하는 모델이에요. 바로 답을 내놓으라고 하면 중간 과정 없이 확률적으로 그럴듯한 답을 생성해요. 복잡한 문제에서는 이게 틀릴 확률이 높아요.# 바로 답하기 — 틀리기 쉬움질문: "농부가 닭 17마리와 양 10마리를 키운다. 다리는 총 몇 개인..

AI 에이전트 보안 완전 정리 — Prompt Injection 공격과 방어 완전 가이드 AI 에이전트를 프로덕션에 올리면 이런 일이 생겨요."에이전트가 갑자기 이상한 행동을 해. 아무도 그런 지시를 안 했는데."이건 버그가 아니에요. 공격이에요. OWASP 2025 LLM Top 10에서 Prompt Injection을 1위로 꼽을 만큼, AI 에이전트 보안은 2025년 가장 중요한 이슈 중 하나가 됐어요.이번 글에서는 어떤 공격이 존재하는지, 실제로 어떻게 발생하는지, 그리고 개발자와 사용자가 각각 어떻게 방어해야 하는지 정리해 드릴게요.왜 에이전트는 일반 소프트웨어보다 위험한가일반 소프트웨어는 코드가 정해진 대로만 동작해요. 입력값을 검증하고 SQL 인젝션만 막으면 어느 정도 안전해요.에이전트는 달라요. 자연어를 해석해서 스스로 행동을 결정하기 때문에, 텍스트 자체가 공격 벡터가 돼요...

AI 에이전트 성능을 어떻게 측정하나 — Evals와 평가 방법론 완전 정리 AI 에이전트를 만들고 나면 이런 질문이 생겨요."이 에이전트가 잘 동작하는 건지 어떻게 알지? 그냥 써보는 것 말고 제대로 측정하는 방법이 있나?"일반 소프트웨어는 테스트가 간단해요. 같은 입력에 같은 출력이 나오면 패스, 다르면 실패. 근데 AI 에이전트는 비결정적이고, 여러 단계를 거치고, 툴을 호출하고, 컨텍스트를 누적해요. 전통적인 테스트 방식이 안 통해요.이번 글에서는 에이전트 평가가 왜 어려운지, 무엇을 측정해야 하는지, 어떤 방법으로 측정하는지 정리해 드릴게요.왜 에이전트 평가는 어려운가일반 LLM 평가와 에이전트 평가의 차이는 이거예요.일반 LLM 평가프롬프트 입력 → 답변 출력 → 정답과 비교에이전트 평가목표 입력 → 툴 호출 결정 (올바른 툴인가?) → 툴 실행 (파라미터가 맞는가..

AI 에이전트 오케스트레이션 패턴 3가지 — Pipeline, Supervisor, Swarm 실전 비교 여러 에이전트를 만들고 나면 이런 고민이 생겨요."에이전트들을 어떻게 연결하지? 누가 누구한테 일을 시키고, 결과는 어떻게 모으지?"이게 오케스트레이션 패턴 선택의 문제예요. 패턴을 잘못 고르면 에이전트들이 무한루프에 빠지거나, 병목이 생기거나, 디버깅이 불가능한 시스템이 돼요. 이번 글에서는 세 가지 핵심 패턴을 원리부터 실전 적용까지 정리해 드릴게요.패턴 1: Pipeline (순차 파이프라인)개념에이전트들이 고정된 순서대로 실행돼요. A의 출력이 B의 입력이 되고, B의 출력이 C의 입력이 되는 조립 라인 구조예요.사용자 입력 │ ▼[에이전트 A: 정보 수집] │ ▼[에이전트 B: 분석] │ ▼[에이전트 C: 글쓰기] │ ▼[에이전트 D: 검수] │ ..

쿼리 재작성, 반복 검색, 멀티소스 라우팅 — Agentic RAG 동작 원리와 동적 검색 전략 완전 정리 RAG 시스템을 만들고 나면 이런 한계가 생겨요."단순한 질문은 잘 답하는데, '2024년 실적을 바탕으로 2025년 전략을 분석해줘' 같은 복잡한 질문은 엉뚱한 답이 나온다."이건 일반 RAG의 구조적 한계예요. 한 번 검색하고 끝나는 구조로는 복잡한 다단계 질문을 처리할 수가 없어요. 이걸 해결하는 게 Agentic RAG입니다.일반 RAG의 한계일반 RAG의 파이프라인은 고정돼 있어요.질문 → 벡터 검색 → 상위 K개 문서 → LLM → 답변단순하고 빠른데, 세 가지 문제가 있어요.한 번밖에 검색 못 해요. 검색 결과가 별로여도 그냥 그걸로 답해요. "부족하다"는 판단을 못 해요.쿼리 복잡도를 무시해요. "파이썬이 뭐야?" 같은 단순 질문과 "2024년 AI 트렌드를 분석하고 우리 회사 전략에 어떻..

Elasticsearch로 한국어 RAG 만드는 법 — Dense Vector KNN + BM25 + Nori 완전 정리 Elasticsearch로 RAG 시스템을 만들다 보면 이런 상황이 생겨요."의미 기반 벡터 검색도 하고 싶고, 정확한 키워드 검색도 하고 싶은데 어떻게 같이 써?"그리고 한국어 데이터를 다루면 또 이런 문제가 생겨요."형태소 분석 없이 BM25 하면 '검색엔진'으로 검색할 때 '검색'만 들어간 문서가 안 나오네."이번 글에서는 Dense Vector KNN으로 의미 검색을 하고, Nori 형태소 분석기 기반 BM25로 키워드 검색을 하고, 두 개를 하이브리드로 결합하는 방법을 처음부터 끝까지 정리해 드릴게요.전체 구조 먼저사용자 쿼리 │ ├─ 임베딩 변환 → Dense Vector KNN (의미 기반 검색) └─ 텍스트 그대로 → BM25 + Nori (키워드 기반 검색) │ ..

LLM 출력 파싱 실패를 없애는 법 — Pydantic으로 JSON 검증 완전 정리 파라미터 크기가 작은 LLM을 사용하여 AI 에이전트를 만들다 보면 이런 상황이 반드시 생겨요."분명히 JSON으로 답하라고 했는데 왜 마크다운 코드블록으로 감싸서 오지? 왜 필드가 빠져 있지?"LLM 출력을 믿고 그냥 json.loads() 하면 언젠가 반드시 터져요. 이번 글에서는 Pydantic으로 LLM 출력을 안정적으로 검증하는 방법을 정리해 드릴게요.왜 LLM 출력 파싱이 어려운가LLM은 확률적으로 텍스트를 생성해요. "JSON으로만 답해"라고 해도 이런 일이 생겨요.문제 1: 마크다운 펜스가 붙어서 옴```json{"result": "success"}**문제 2: 필드가 빠져 있음**```json{"result": "success"}// reasoning 필드가 없음문제 3: 타입이 틀림{"..

RAG 시스템에 맞는 벡터 DB는 뭔가 — ChromaDB vs Qdrant vs Pinecone vs Elasticsearch 완전 비교 RAG 시스템을 만들 때 이런 고민이 생깁니다."벡터 DB가 이렇게 많은데 뭘 써야 하지? 다들 자기가 제일 빠르다고 하는데."벤더 벤치마크는 전부 자기한테 유리하게 나와 있어요. 이번 글에서는 ChromaDB, Qdrant, Pinecone, Elasticsearch 네 가지를 실전 관점에서 비교해 드릴게요.벡터 DB가 왜 필요한가일반 DB는 정확한 값으로 검색해요. "이름 = 홍길동"처럼요. 벡터 DB는 의미적으로 유사한 것을 찾아요. "강아지"를 검색하면 "멍멍이", "반려견", "puppy"도 찾아주는 거예요.RAG 시스템에서 "사용자 질문과 관련된 문서를 찾아서 LLM에 넘기는" 과정이 바로 벡터 검색이에요. 이 검색이 빠르고 정확해야 RAG 전체 품질이 올라갑니다.4개 한눈에 비교구분 Chro..

이전 1 ··· 16 17 18 19 20 21 22 다음

티스토리툴바