본문 바로가기

RAG

(6)

RAG 청킹 전략 완전 정리 RAG 시스템이 엉터리 답변을 내놓을 때 대부분 이렇게 생각해요."임베딩 모델 바꿔볼까?""프롬프트 더 정교하게 써야겠다""LLM을 더 좋은 걸로 바꾸면 되겠지"근데 실제로 RAG 실패의 80%는 청킹 문제예요.잘못 자른 청크가 들어가면 아무리 좋은 LLM도 엉터리 답변을 낼 수밖에 없어요.청킹이 뭔가RAG는 문서를 통째로 넣을 수 없어요. 임베딩 모델의 입력 한계가 있고, 벡터 검색 정확도도 떨어져요.원문 (10,000 토큰):"회사 규정 전체 문서..."청킹:청크 1: "출근 시간은 오전 9시..." (512토큰)청크 2: "연차 사용 규정은..." (512토큰)청크 3: "복리후생 제도는..." (512토큰)...질문: "연차 며칠이야?"→ 청크 2만 검색됨→ 관련 내용만 LLM에 전달→ 정확한 답..

컨텍스트 엔지니어링 — 프롬프트 엔지니어링의 다음 단계 2025년 6월, Andrej Karpathy(전 OpenAI, Tesla AI 디렉터)가 X에 짧은 글 하나를 올렸어요."프롬프트 엔지니어링이라는 말은 우리가 실제로 하는 일을 너무 사소하게 만든다. 더 정확한 표현은 컨텍스트 엔지니어링이다."그리고 Shopify CEO 토비 뤼트케가 동의하며 이렇게 정의했어요."LLM이 그럴듯하게 문제를 풀 수 있도록 모든 컨텍스트를 제공하는 기술."이 두 발언 이후 AI 개발 커뮤니티에서 컨텍스트 엔지니어링이 2026년 가장 중요한 개념으로 자리 잡았어요.프롬프트 엔지니어링과 뭐가 다른가먼저 LLM을 컴퓨터로 비유해볼게요.LLM = CPU컨텍스트 윈도우 = RAM컨텍스트 엔지니어링 = 운영체제운영체제는 CPU가 작업할 때 RAM에 딱 필요한 데이터만 올려요. 너무 ..

RAG 데모는 잘 되는데 배포하면 망하는 이유 7가지 — 원인별 해결법, 프로덕션 RAG 완전 가이드 RAG 데모는 항상 잘 돼요.PDF 몇 개 넣고, 벡터 DB 연결하고, LLM 붙이면 마법처럼 답이 나와요. 팀이 흥분하고, 경영진이 빠른 배포를 요구해요.그리고 3개월 뒤, 시스템이 무너지기 시작해요.데이터가 많아지면서 검색이 틀리고, 답이 엉뚱하고, 비용이 폭증하고, 아무도 원인을 모르는 상황이 돼요.엔터프라이즈 RAG 구현의 40~72%가 첫 해 안에 실패해요. 모델이 나빠서가 아니에요. 아키텍처가 데모용으로 설계됐기 때문이에요.이번 글에서는 RAG가 실패하는 7가지 이유와 실전 해결책을 코드와 함께 정리해 드릴게요.실패 원인 1: 잘못된 청킹 전략가장 흔하고 가장 치명적인 실수예요. 문서를 고정 크기(512 토큰)로 자르면 이런 일이 생겨요.원본 문서:"환불 정책은 구매 후 30일 이내에 적용됩니..

쿼리 재작성, 반복 검색, 멀티소스 라우팅 — Agentic RAG 동작 원리와 동적 검색 전략 완전 정리 RAG 시스템을 만들고 나면 이런 한계가 생겨요."단순한 질문은 잘 답하는데, '2024년 실적을 바탕으로 2025년 전략을 분석해줘' 같은 복잡한 질문은 엉뚱한 답이 나온다."이건 일반 RAG의 구조적 한계예요. 한 번 검색하고 끝나는 구조로는 복잡한 다단계 질문을 처리할 수가 없어요. 이걸 해결하는 게 Agentic RAG입니다.일반 RAG의 한계일반 RAG의 파이프라인은 고정돼 있어요.질문 → 벡터 검색 → 상위 K개 문서 → LLM → 답변단순하고 빠른데, 세 가지 문제가 있어요.한 번밖에 검색 못 해요. 검색 결과가 별로여도 그냥 그걸로 답해요. "부족하다"는 판단을 못 해요.쿼리 복잡도를 무시해요. "파이썬이 뭐야?" 같은 단순 질문과 "2024년 AI 트렌드를 분석하고 우리 회사 전략에 어떻..

벡터 검색 정확도 올리는 법 — 임베딩 모델 선택부터 HNSW 튜닝, Reranking까지 벡터 검색을 붙여봤는데 결과가 기대보다 별로라는 경험, 한 번쯤 있으실 거예요."분명히 관련 있는 문서인데 왜 안 나오지?"이번 글에서는 벡터 검색 정확도를 높이는 방법을 임베딩 모델 선택부터 Reranking까지 단계별로 정리해 드릴게요.1. 좋은 임베딩 모델 선택벡터 검색 정확도의 기반은 임베딩 모델이에요. 모델이 좋아야 검색 품질이 올라갑니다.현재 성능이 검증된 모델들은 이렇습니다.BGE (bge-large, bge-m3) — 최근 벤치마크에서 성능 좋음E5 (e5-large, e5-mistral) — 다양한 벤치마크에서 우수한 성능Qwen-Embedding — 최근 MTEB 벤치마크에서 최상위권, 다국어 지원 강력MiniLM, Contriever — 가볍지만 성능 괜찮음OpenAI Embeddin..

기존 RAG의 한계를 그래프로 돌파한다 — Graph RAG 동작 원리 완전 정리 RAG(Retrieval Augmented Generation)를 써보셨다면 이런 답답함을 느끼신 적 있으실 거예요."분명히 관련 문서인데, 왜 엉뚱한 답이 나오지?"이건 기존 RAG의 구조적인 한계 때문입니다. 이번 글에서는 그 한계를 그래프 기반으로 돌파한 Graph RAG의 개념과 동작 원리를 처음부터 끝까지 정리해 드릴게요.기존 RAG의 문제점기존 RAG는 문서를 chunk 단위로 잘라서 관련 chunk를 검색한 뒤 LLM에 넘겨주는 방식이에요.여기서 두 가지 문제가 생깁니다.첫째, 연결 관계를 놓칩니다. 문서를 잘게 쪼개다 보면 chunk 사이의 맥락과 관계가 끊겨요. "A는 B의 원인이다"라는 정보가 두 chunk에 걸쳐 있으면 그냥 사라지는 거예요.둘째, context가 LLM 처리 용량을 ..

이전 1 다음

티스토리툴바