반응형

분류 전체보기 355

Google AI Overviews: Answer Engine Optimization(AEO)이 뭔지 지금 알아야 하는 이유

구글에서 검색하면 파란 링크 목록이 뜨던 시대가 끝나가고 있습니다. 이제 사람들은 ChatGPT, Perplexity, Google AI Overviews에 질문하고 바로 답을 받습니다. 60%의 구글 검색이 이미 링크를 클릭하지 않고 끝납니다. ChatGPT 주간 활성 사용자는 4억 명, Google AI Overviews는 월 20억 명에게 도달합니다.이 변화가 마케터에게 의미하는 것은 하나입니다. AI가 답변을 생성할 때 인용하는 출처가 되지 않으면 존재하지 않는 것과 같습니다. 이를 위한 최적화가 AEO입니다.한줄요약AEO(Answer Engine Optimization)란 AI가 답변을 만들 때 내 콘텐츠를 인용하도록 최적화하는 전략입니다. SEO가 구글 검색 결과 상위에 올리는 것이라면, AE..

AI 소식 2026.06.16

vLLM vs SGLang — 프로덕션 LLM 서빙 프레임워크 어떻게 골라야 하나

모델을 골랐으면 다음 결정이 서빙 엔진입니다. vLLM과 SGLang은 둘 다 OpenAI 호환 엔드포인트를 제공하고, 둘 다 PagedAttention 계열 메모리 관리를 씁니다. 그런데 특정 워크로드에서는 성능 차이가 6배까지 납니다. 어떤 걸 써야 하는지는 모델 크기가 아니라 워크로드 형태가 결정합니다.핵심 차이 — PagedAttention vs RadixAttention두 엔진의 근본적 차이는 KV 캐시를 어떻게 다루느냐입니다.vLLM의 PagedAttention은 KV 캐시 메모리를 고정 크기 블록으로 관리하고 요청이 끝나면 해제합니다. SGLang의 RadixAttention은 KV 캐시를 LRU 래딕스 트리에 유지하고 새 요청이 이전 요청과 프리픽스를 공유하면 재사용합니다. PagedAtt..

LLM 2026.06.15

smolagents 완전 가이드 — 1,000줄 Python으로 에이전트 만드는 법

LangChain이 너무 복잡하다고 느낀 적이 있다면 smolagents가 답입니다. Hugging Face가 만든 이 프레임워크는 핵심 코드가 약 1,000줄입니다. 그러면서 CodeAgent, MCP 연동, 멀티에이전트 오케스트레이션, 샌드박스 실행을 다 지원합니다. 2026년 3월 기준 GitHub 스타 26,000+, MCP 통합 깊이가 현존 에이전트 프레임워크 중 가장 깊습니다.왜 smolagents인가 — CodeAgent의 핵심 아이디어대부분의 에이전트 프레임워크는 모델이 액션을 JSON이나 텍스트로 출력하고, 프레임워크가 이를 파싱해서 툴을 호출하는 구조입니다. smolagents는 다릅니다.smolagents의 CodeAgent는 액션을 Python 코드 스니펫으로 작성합니다. 모델이 J..

AI Agent 2026.06.15

AI가 코드 짜면 누가 책임지나 — 2026년 소프트웨어 품질 책임의 새 기준

지난 주 여러분의 팀은 PR을 몇 건 머지했습니까? 그 중 AI가 작성하거나 크게 도운 코드가 몇 퍼센트였습니까? 그 비율을 정확히 알고 있습니까?2026년 현재, 이건 단순한 엔지니어링 질문이 아닙니다. 법적 질문입니다. EU AI Act가 시행 중이고, Defective Products Directive는 스탠드얼론 소프트웨어를 제조물로 분류했으며, FTC는 알고리즘 출력에 대한 책임이 도구가 아닌 기업에 있다고 명확히 했습니다."AI가 짰다"는 변명은 통하지 않는다법적 결론부터 말합니다.법원은 "AI가 실수를 했다"는 항변을 받아들일 가능성이 낮습니다. 책임은 코드를 배포한 개발자, 시스템을 통합한 회사, AI 툴을 제공한 벤더에게 남습니다.Copilot이 생성한 버그가 있는 코드를 배포한 스타트업..

AI 개발 2026.06.15

NVIDIA Vera Rubin 플랫폼 완전 분석 — 토큰 비용 10분의 1, AI 인프라 전쟁의 다음 라운드

2026년 하반기부터 대형 클라우드 공급자들이 쓰는 AI 칩이 바뀝니다. Blackwell에서 Vera Rubin으로. NVIDIA가 약속하는 수치는 인퍼런스 성능 5배, 토큰당 비용 10분의 1입니다. 이게 사실이라면 지금 ChatGPT·Claude·Gemini에 쓰는 API 가격 구조가 근본적으로 달라집니다. 개발자와 투자자 모두 이 타임라인을 알아야 합니다.Vera Rubin이 뭔가 — 칩 하나가 아니다Vera Rubin은 단일 GPU가 아닙니다. NVIDIA가 "익스트림 코디자인"이라고 부르는 방식으로 만들어진 7개 칩, 5개 랙 스케일 시스템으로 구성된 플랫폼입니다. 핵심 구성 요소는 Rubin GPU, Vera CPU, NVLink 6 스위치, ConnectX-9 SuperNIC, BlueFi..

AI 개발 2026.06.15

Windows AI 로컬 에이전트 Aion 1.0 — OS에 내장된 14B 추론 모델이 뭘 바꾸나

지금까지 Windows에서 AI를 쓴다는 건 Copilot 버튼을 눌러서 클라우드 API를 호출한다는 뜻이었습니다. 데이터가 네트워크를 타고 나가고, 쿼터가 소비되고, 오프라인에서는 아무것도 안 됐습니다. Build 2026에서 Microsoft가 발표한 Aion 1.0은 이 구조를 바꾸는 시도입니다. 14B 추론 모델이 OS 안에 내장됩니다.Aion 1.0 — 두 가지 모델, 다른 역할Microsoft는 Build 2026에서 Aion 1.0 패밀리를 두 가지 변형으로 발표했습니다. Aion 1.0 Instruct와 Aion 1.0 Plan입니다.Aion 1.0 Instruct는 더 작고 빠른 온디바이스 SLM으로, 요약·재작성·의도 파악·접근성 기능에 쓰입니다. 핵심은 CPU에서도 실행된다는 점입니다..

LLM 2026.06.15

MiniMax M2.5 vs M3 비교 — 무엇이 달라졌고 언제 업그레이드해야 하나

MiniMax M 시리즈는 2025년 10월 M2를 시작으로 M2.1, M2.5, M2.7, 그리고 6월 1일 M3까지 8개월 만에 다섯 번의 주요 릴리즈가 있었습니다. 현재 API에서 쓸 수 있는 모델만 M2.1, M2.5, M2.5 Highspeed, M2.7, M2.7 Highspeed, M3 여섯 종입니다. 어떤 걸 써야 할지 헷갈리는 게 당연합니다. M2.5와 M3를 중심으로 정리합니다.세대 차이 한눈에MiniMax M2.5는 2026년 2월 12일 출시됐습니다. 230B 총 파라미터, 10B 활성 파라미터 MoE 구조, 200K 토큰 컨텍스트 윈도우, 텍스트 전용 입력입니다.MiniMax M3는 6월 1일 출시됐습니다. M2.7의 포인트 릴리즈가 아닌 세대 변화입니다. 새로운 MSA 스파스 어..

LLM 2026.06.15

MiniMax M3 무료 API 완전 가이드 — 1M 컨텍스트 멀티모달 모델 실전 연동

Claude Opus 4.8이 $5/$25(입력/출력 백만 토큰)인 시장에 출력 $1.20짜리 모델이 SWE-bench Pro에서 GPT-5.5를 앞서는 벤치마크를 들고 나타났습니다. 6월 1일 출시된 MiniMax M3입니다. 한국어를 포함한 다국어를 지원하고, 텍스트·이미지·영상을 1M 토큰 컨텍스트 안에서 처리합니다. OpenAI 호환 API라 기존 코드 변경이 거의 없습니다.M3가 뭔지 — 아키텍처부터M3의 핵심 기술적 변화는 MiniMax Sparse Attention(MSA)입니다. 이전 M2 시리즈는 표준 풀 어텐션을 썼는데, M3에서는 GQA(Grouped-Query Attention) 백본 위에 MSA를 올린 구조입니다. 블록 레벨에서 실제 비압축 키-값을 선택하는 방식으로, 1M 토큰 ..

LLM 2026.06.15

Claude가 12시간짜리 태스크를 처리한다 — 장기 자율 에이전트 설계 실전 패턴

AI 에이전트를 쓰다 보면 반드시 한 번은 이 상황을 만납니다. 30분쯤 돌다가 "다음에 이어서 하겠습니다"라며 멈춰버리는 에이전트. 몇 시간 뒤 다시 보면 컨텍스트가 날아가서 처음부터 다시 시작하는 에이전트. 2026년 현재 Claude는 12시간, 길게는 30시간 이상 자율 실행이 가능해졌습니다. 문제는 모델이 아니라 설계입니다.왜 지금 장기 에이전트가 가능해졌나태스크 수행 시간 호라이즌은 4개월마다 2배씩 늘어나고 있습니다. Claude는 현재 12시간짜리 태스크를 처리할 수 있고, Claude Code 내부 테스트에서는 30시간 이상 자율 코딩으로 11,000줄 규모의 Slack 스타일 앱을 만든 사례도 있습니다.Anthropic 내부에서는 2026년 2분기 기준 엔지니어 1인당 하루 코드 머지량..

Claude 2026.06.15

Microsoft Phi-4-reasoning-vision-15B 실전 가이드 — "언제 생각할지" 스스로 결정하는 경량 멀티모달 모델

추론 모델의 가장 큰 비용 문제는 항상 생각한다는 것입니다. 간단한 이미지 캡션 하나에도 수천 개의 추론 토큰을 태웁니다. Phi-4-reasoning-vision-15B는 이 문제를 다르게 접근합니다. 생각이 필요한지 아닌지를 모델이 스스로 판단합니다.핵심 아이디어 — THINK vs NOTHINK 자동 전환Phi-4-reasoning-vision-15B의 가장 큰 차별점은 태스크 복잡도에 따라 추론 모드를 자동으로 전환한다는 것입니다. 대부분의 추론 모델은 thinking on/off를 사용자가 직접 설정하고 모델은 그 설정을 따릅니다. Phi-4-reasoning-vision은 설정 없이 스스로 결정합니다.시스템 프롬프트에서 이 동작이 명시적으로 정의돼 있습니다. NOTHINK 모드는 태스크가 명확..

LLM 2026.06.15
반응형