반응형

markdown 2

markitdown-ocr 플러그인 — 스캔 PDF, 이미지 속 텍스트까지 뽑아내는 법

지난 글에서 markitdown 기본 사용법을 다뤘어요.근데 이런 파일이 오면 기본 markitdown이 손을 들어요.기본 markitdown이 못 하는 것들:❌ 스캔해서 만든 PDF (이미지로만 구성)❌ PDF 안에 박힌 차트/표 이미지❌ PPT 슬라이드 안의 스크린샷❌ Word 문서에 붙여넣은 이미지❌ 손으로 쓴 필기 문서이런 파일을 기본 markitdown으로 변환하면:# 보고서[이미지][이미지]## 결론이미지가 전부 [이미지] 플레이스홀더로 대체돼요. 안에 뭐가 있는지 모름.markitdown-ocr 플러그인이 이 문제를 해결해요. LLM 비전 모델로 이미지 속 텍스트를 실제로 읽어냅니다.설치# markitdown 기본 설치pip install 'markitdown[all]'# OCR 플러그인 추..

AI 개발 2026.04.21

markitdown 완전 가이드 — PDF, Word, PPT를 LLM이 읽는 형식으로 자동 변환

RAG 파이프라인을 만들다 보면 항상 이 벽에 부딪혀요."이 PDF 분석해줘"→ LLM: ????이유:PDF는 렌더링용 포맷텍스트, 이미지, 표가 뒤섞인 이진 파일LLM이 직접 이해하기 어려움그래서 보통 이렇게 함:PDF → PyPDF2로 텍스트 추출 → 근데 표/이미지 날아감Word → python-docx → 복잡한 파싱 코드 작성PPT → 슬라이드 하나씩 수동 처리Excel → pandas로 읽고 또 변환→ 포맷마다 다른 라이브러리→ 포맷마다 다른 코드→ 복잡하고 유지보수 힘듦Microsoft가 이 문제를 해결하는 도구를 오픈소스로 냈어요. markitdown이에요.pip install 'markitdown[all]'markitdown 문서.pdf끝.GitHub 별 5만개+. MIT 라이선스.뭘 지..

AI 개발 2026.04.21
반응형