본문 바로가기

반응형

AI Development

(55)
markitdown-ocr 플러그인 — 스캔 PDF, 이미지 속 텍스트까지 뽑아내는 법 지난 글에서 markitdown 기본 사용법을 다뤘어요.근데 이런 파일이 오면 기본 markitdown이 손을 들어요.기본 markitdown이 못 하는 것들:❌ 스캔해서 만든 PDF (이미지로만 구성)❌ PDF 안에 박힌 차트/표 이미지❌ PPT 슬라이드 안의 스크린샷❌ Word 문서에 붙여넣은 이미지❌ 손으로 쓴 필기 문서이런 파일을 기본 markitdown으로 변환하면:# 보고서[이미지][이미지]## 결론이미지가 전부 [이미지] 플레이스홀더로 대체돼요. 안에 뭐가 있는지 모름.markitdown-ocr 플러그인이 이 문제를 해결해요. LLM 비전 모델로 이미지 속 텍스트를 실제로 읽어냅니다.설치# markitdown 기본 설치pip install 'markitdown[all]'# OCR 플러그인 추..
markitdown 완전 가이드 — PDF, Word, PPT를 LLM이 읽는 형식으로 자동 변환 RAG 파이프라인을 만들다 보면 항상 이 벽에 부딪혀요."이 PDF 분석해줘"→ LLM: ????이유:PDF는 렌더링용 포맷텍스트, 이미지, 표가 뒤섞인 이진 파일LLM이 직접 이해하기 어려움그래서 보통 이렇게 함:PDF → PyPDF2로 텍스트 추출 → 근데 표/이미지 날아감Word → python-docx → 복잡한 파싱 코드 작성PPT → 슬라이드 하나씩 수동 처리Excel → pandas로 읽고 또 변환→ 포맷마다 다른 라이브러리→ 포맷마다 다른 코드→ 복잡하고 유지보수 힘듦Microsoft가 이 문제를 해결하는 도구를 오픈소스로 냈어요. markitdown이에요.pip install 'markitdown[all]'markitdown 문서.pdf끝.GitHub 별 5만개+. MIT 라이선스.뭘 지..
Gemini CLI 가이드 — Claude Code 대신 $0에 쓰는 법 Claude Code Pro는 월 $20이에요. Gemini CLI는 $0이에요.Google 계정만 있으면 됩니다.무료 한도:- 분당 60 요청- 하루 1,000 요청- 1M 토큰 컨텍스트 윈도우- Gemini 3 모델 (최신 버전)- API 키 설정 불필요뭘 할 수 있나코딩 어시스턴트:→ 레포지토리 전체 분석→ 버그 찾고 수정→ 파일 읽기/쓰기/수정→ 테스트 생성터미널 자동화:→ 셸 명령 실행→ Git 작업→ 파일 시스템 탐색외부 연결 (MCP):→ GitHub PR/이슈 관리→ 데이터베이스 쿼리→ Slack, Notion, Google Drive기타:→ 웹 검색 (Google Search 내장)→ 웹페이지 fetch→ 세션 체크포인트 저장/복원1단계 — 설치# Node.js 18+ 필요 (없으면 먼저..
AI 에이전트 트래픽 7,851% 폭증 — 바뀌어야 하는 서버 설계, 방어 전략 2025년, 조용히 인터넷이 바뀌었어요.HUMAN Security가 1경(10^15) 개 이상의 디지털 상호작용을 분석한 결과:2025년 트래픽 증가율:AI 에이전트 브라우저 트래픽: +7,851%AI 봇 전체: +187%사람: +3.1%자동화 트래픽 성장속도 = 사람의 8배Cloudflare CEO 매튜 프린스가 2026년 3월 SXSW에서 한 말:"2027년이면 봇 트래픽이 사람 트래픽을 추월한다.COVID 때처럼 반짝 스파이크가 아니다.멈출 기미가 없다."2024년 이미 자동화 트래픽이 전체 웹 트래픽의 51%를 넘겼어요. 인터넷 역사상 처음이에요.문제는 대부분의 서버와 API가 여전히 사람 트래픽 기준으로 설계되어 있다는 거..
Spec-Driven Development — Vibe Coding 다음 단계, AI 에이전트 개발 방법론 Claude Code, Cursor, Copilot 다 있어요. 근데 왜 아직도 버그가 나고 코드가 망가질까요.개발자: "알림 시스템 추가해줘"에이전트: 토스트 메시지 컴포넌트 생성개발자: "아니, 백엔드 알림이 필요해"에이전트: 이메일 알림 서비스 생성개발자: "SMS도 지원해야 해"에이전트: SMS 프로바이더 추가개발자: "재시도 로직은?"에이전트: 지수 백오프 추가...10번의 반복...→ 처음 의도와 다른 코드베이스→ 일관성 없는 패턴→ 아무도 전체를 이해 못 함이게 Vibe Coding의 한계예요. 500줄 넘어가면 무너지기 시작해요.Spec-Driven Development가 뭔가Vibe Coding:아이디어 → 프롬프트 → 코드 → 문제 → 재프롬프트 → ...Spec-Driven Devel..
OpenAI Codex 대규모 업데이트 — 컴퓨터를 대신 써주는 AI 코딩 도구 2026년 4월 16일, OpenAI가 Codex 데스크탑 앱을 완전히 뒤집었어요.기존 Codex:코드 작성, 디버깅, 리팩토링→ 채팅 인터페이스 안에서만 동작새로운 Codex:내 맥북 앱 전체를 직접 조작→ 보고, 클릭하고, 타이핑→ 내가 다른 작업하는 동안 백그라운드에서 동시에TechCrunch가 직접 이렇게 썼어요."OpenAI와 Anthropic 사이에 저강도 전쟁이 있다.지금까지는 Anthropic이 이기고 있었다.이번 업데이트는 OpenAI의 반격이다."핵심 1 — 백그라운드 컴퓨터 사용Codex가 맥OS 앱을 직접 조작해요. 내가 일하는 동안 백그라운드에서.작동 방식:1. Codex에게 지시: "Figma에서 이 컴포넌트 수정하고 Slack에 결과 보고해줘"2. Codex가 별도 커서로 Fi..
OpenAI Agents SDK 대규모 업데이트 — Claude Code Routines 나온 지 3일 만에 맞불 2026년 4월 14일, Anthropic이 Claude Code Routines를 출시했어요. 3일 뒤인 4월 16일, OpenAI가 Agents SDK를 대규모 업데이트했어요.타이밍이 우연이 아닌 것 같은 이유:Claude Code Routines: 노트북 꺼도 클라우드에서 에이전트 실행OpenAI Agents SDK: 샌드박스에서 에이전트 안전하게 장기 실행→ 에이전트 인프라 전쟁 시작뭐가 바뀌었나기존 Agents SDK의 한계가 있었어요.기존 문제:범용 프레임워크 → 유연하지만 GPT 최적화 안 됨모델 프로바이더 SDK → 모델에 가깝지만 가시성 부족관리형 에이전트 API → 배포 쉽지만 실행 환경 제한→ 프로토타입은 쉬운데 프로덕션이 힘들었음이번 업데이트의 핵심 3가지예요.1. 네이티브 샌..
AI 코딩 툴 보안 실전 — Claude Code 소스 유출 이후 달라진 공격 지형 2026년 3월 31일, Claude Code 소스코드가 npm에 실수로 노출됐어요.유출 규모:→ 51만 2천 줄 TypeScript→ 1,906개 파일→ 24시간 만에 GitHub 포크 41,500개공격자들의 반응 속도:→ 유출 24시간 이내: 악성 "leaked Claude Code" GitHub 레포 등장→ 구글 검색 상위에 악성 레포 노출→ 25개 이상 소프트웨어 브랜드 사칭 캠페인 즉시 시작근데 이건 시작에 불과해요. 진짜 문제는 공격자들이 이제 Claude Code의 내부 동작 원리를 알게 됐다는 거예요.공격 유형 1 — Slopsquatting (슬롭스쿼팅)AI가 환각으로 만든 패키지명을 공격자가 선점하는 공격이에요.어떻게 작동하나:1. 연구자들이 LLM에게 576,000개 코드 샘플 생성 ..

반응형