반응형

LLM 58

vLLM vs SGLang — 프로덕션 LLM 서빙 프레임워크 어떻게 골라야 하나

모델을 골랐으면 다음 결정이 서빙 엔진입니다. vLLM과 SGLang은 둘 다 OpenAI 호환 엔드포인트를 제공하고, 둘 다 PagedAttention 계열 메모리 관리를 씁니다. 그런데 특정 워크로드에서는 성능 차이가 6배까지 납니다. 어떤 걸 써야 하는지는 모델 크기가 아니라 워크로드 형태가 결정합니다.핵심 차이 — PagedAttention vs RadixAttention두 엔진의 근본적 차이는 KV 캐시를 어떻게 다루느냐입니다.vLLM의 PagedAttention은 KV 캐시 메모리를 고정 크기 블록으로 관리하고 요청이 끝나면 해제합니다. SGLang의 RadixAttention은 KV 캐시를 LRU 래딕스 트리에 유지하고 새 요청이 이전 요청과 프리픽스를 공유하면 재사용합니다. PagedAtt..

LLM 2026.06.15

Windows AI 로컬 에이전트 Aion 1.0 — OS에 내장된 14B 추론 모델이 뭘 바꾸나

지금까지 Windows에서 AI를 쓴다는 건 Copilot 버튼을 눌러서 클라우드 API를 호출한다는 뜻이었습니다. 데이터가 네트워크를 타고 나가고, 쿼터가 소비되고, 오프라인에서는 아무것도 안 됐습니다. Build 2026에서 Microsoft가 발표한 Aion 1.0은 이 구조를 바꾸는 시도입니다. 14B 추론 모델이 OS 안에 내장됩니다.Aion 1.0 — 두 가지 모델, 다른 역할Microsoft는 Build 2026에서 Aion 1.0 패밀리를 두 가지 변형으로 발표했습니다. Aion 1.0 Instruct와 Aion 1.0 Plan입니다.Aion 1.0 Instruct는 더 작고 빠른 온디바이스 SLM으로, 요약·재작성·의도 파악·접근성 기능에 쓰입니다. 핵심은 CPU에서도 실행된다는 점입니다..

LLM 2026.06.15

MiniMax M2.5 vs M3 비교 — 무엇이 달라졌고 언제 업그레이드해야 하나

MiniMax M 시리즈는 2025년 10월 M2를 시작으로 M2.1, M2.5, M2.7, 그리고 6월 1일 M3까지 8개월 만에 다섯 번의 주요 릴리즈가 있었습니다. 현재 API에서 쓸 수 있는 모델만 M2.1, M2.5, M2.5 Highspeed, M2.7, M2.7 Highspeed, M3 여섯 종입니다. 어떤 걸 써야 할지 헷갈리는 게 당연합니다. M2.5와 M3를 중심으로 정리합니다.세대 차이 한눈에MiniMax M2.5는 2026년 2월 12일 출시됐습니다. 230B 총 파라미터, 10B 활성 파라미터 MoE 구조, 200K 토큰 컨텍스트 윈도우, 텍스트 전용 입력입니다.MiniMax M3는 6월 1일 출시됐습니다. M2.7의 포인트 릴리즈가 아닌 세대 변화입니다. 새로운 MSA 스파스 어..

LLM 2026.06.15

MiniMax M3 무료 API 완전 가이드 — 1M 컨텍스트 멀티모달 모델 실전 연동

Claude Opus 4.8이 $5/$25(입력/출력 백만 토큰)인 시장에 출력 $1.20짜리 모델이 SWE-bench Pro에서 GPT-5.5를 앞서는 벤치마크를 들고 나타났습니다. 6월 1일 출시된 MiniMax M3입니다. 한국어를 포함한 다국어를 지원하고, 텍스트·이미지·영상을 1M 토큰 컨텍스트 안에서 처리합니다. OpenAI 호환 API라 기존 코드 변경이 거의 없습니다.M3가 뭔지 — 아키텍처부터M3의 핵심 기술적 변화는 MiniMax Sparse Attention(MSA)입니다. 이전 M2 시리즈는 표준 풀 어텐션을 썼는데, M3에서는 GQA(Grouped-Query Attention) 백본 위에 MSA를 올린 구조입니다. 블록 레벨에서 실제 비압축 키-값을 선택하는 방식으로, 1M 토큰 ..

LLM 2026.06.15

Microsoft Phi-4-reasoning-vision-15B 실전 가이드 — "언제 생각할지" 스스로 결정하는 경량 멀티모달 모델

추론 모델의 가장 큰 비용 문제는 항상 생각한다는 것입니다. 간단한 이미지 캡션 하나에도 수천 개의 추론 토큰을 태웁니다. Phi-4-reasoning-vision-15B는 이 문제를 다르게 접근합니다. 생각이 필요한지 아닌지를 모델이 스스로 판단합니다.핵심 아이디어 — THINK vs NOTHINK 자동 전환Phi-4-reasoning-vision-15B의 가장 큰 차별점은 태스크 복잡도에 따라 추론 모드를 자동으로 전환한다는 것입니다. 대부분의 추론 모델은 thinking on/off를 사용자가 직접 설정하고 모델은 그 설정을 따릅니다. Phi-4-reasoning-vision은 설정 없이 스스로 결정합니다.시스템 프롬프트에서 이 동작이 명시적으로 정의돼 있습니다. NOTHINK 모드는 태스크가 명확..

LLM 2026.06.15

NVIDIA Nemotron 3 Nano Omni 실전 가이드 — 문서·영상·오디오를 모델 하나로 처리하는 법

에이전트를 만들다 보면 항상 같은 지점에서 막힙니다. PDF 파싱 모델, 영상 분석 모델, 음성 전사 모델을 따로 붙이고, 그 결과를 또 하나의 LLM에 넘겨서 합쳐야 하는 파이프라인입니다. 레이턴시는 3배, 컨텍스트는 쪼개집니다. Nemotron 3 Nano Omni는 이 구조 자체를 없애는 모델입니다.아키텍처 — 왜 "진짜" 옴니모달인가Nemotron 3 Nano Omni는 30B 총 파라미터, 포워드 패스당 약 3B 활성 파라미터의 MoE 모델입니다. 텍스트, 이미지, 영상(MP4, 최대 2분), 오디오(WAV/MP3, 최대 1시간)를 256K 토큰 컨텍스트 안에서 처리하고, 텍스트로 출력합니다. JSON, 체인오브소트 추론, 네이티브 함수 콜을 지원합니다."옴니모달"이라는 말이 많이 쓰이지만 실제..

LLM 2026.06.15

GPT-5.5 vs Claude Opus 4.8 vs Gemini 3.5 Flash — 2026년 6월 지금 뭘 써야 하나

세 모델이 한 달 안에 연달아 나왔습니다. 뭘 쓸지 5분 안에 결론 내는 가이드입니다.✅ 핵심 요약→ 세 모델 모두 2026년 4~5월 출시됐습니다 — GPT-5.5(4월 23일), Gemini 3.5 Flash(5월 19일), Claude Opus 4.8(5월 28일) → 단일 승자는 없습니다. 2026년 6월 기준 "태스크별 승자"가 다릅니다 → 코딩(SWE-bench Pro): Claude Opus 4.8 69.2% > GPT-5.5 58.6% > Gemini 3.1 Pro 54.2% → 터미널·CLI 자동화: GPT-5.5 78.2% > Opus 4.8 74.6% → MCP 툴 사용: Gemini 3.5 Flash 83.6% > Opus 4.8 79.1% > GPT-5.5 75.3% → 지식 업무..

LLM 2026.06.05

Grok 4.3 무료로 써볼 만한가 — 가격·성능 솔직 정리

Elon Musk의 xAI가 만든 AI, 무료로 어디까지 되는지 따져봤습니다.✅ 핵심 요약→ Grok 4.3은 2026년 5월 xAI가 출시한 현재 주력 모델입니다 → grok.com에서 무료 계정으로 기본 대화와 이미지 생성 체험 가능합니다 — 단, 엄격한 횟수 제한 있음 → 강점은 X(트위터) 실시간 데이터 연동, 장기 에이전트 작업, 가격 대비 성능입니다 → 약점은 코딩 성능 — SWE-bench 기준 Claude Opus 4.7보다 약 14%p 낮습니다 → 코딩보다 최신 뉴스 요약, 리서치, 에이전트 반복 태스크에서 강합니다 → API 가격은 입력 $1.25/100만 토큰 — Claude Opus 4.7 대비 약 1/12 수준으로 저렴합니다 → 요금제는 무료 / SuperGrok Lite($10)..

LLM 2026.06.05

MiniMax M3 완전 분석 — GPT-5.5 제쳤다는 중국 오픈소스, 벤치마크·가격·보안 총정리

6월 1일 출시됐고, 지금 이 시각 가장 뜨거운 오픈소스 AI 모델입니다.핵심 요약→ MiniMax M3, 2026년 6월 1일 출시 — 상하이 AI 스타트업 MiniMax의 새 플래그십→ 최초 주장: 오픈웨이트 모델 중 프론티어 코딩 + 1M 토큰 컨텍스트 + 네이티브 멀티모달 셋을 동시에 갖춘 첫 모델→ SWE-Bench Pro 59.0% — GPT-5.5(58.6%) 소폭 초과 (MiniMax 자체 벤치마크)→ Terminal-Bench 2.1 66.0%, MCP Atlas 74.2%, BrowseComp 83.5→ 핵심 아키텍처: MiniMax Sparse Attention(MSA) — 1M 컨텍스트에서 M2 대비 디코딩 15.6배·프리필 9.7배 빠름→ 가격: 론칭 프로모 $0.30/$1.20 ..

LLM 2026.06.04

Microsoft Foundry Local 완전 가이드 — 클라우드 없이 앱에 LLM 내장하는 법

클라우드 없이 노트북에서 LLM 돌리는 것, 이제 개발자 혼자 삽질 안 해도 됩니다. Microsoft가 런타임·모델 관리·하드웨어 가속을 한 번에 묶어서 패키지로 줬습니다.핵심 요약→ Microsoft Foundry Local, 2026년 4월 GA — Windows·macOS(Apple Silicon)·Linux x64 지원→ 핵심 가치: 앱에 LLM 기능을 넣을 때 사용자에게 "Ollama 먼저 설치하세요" 없이 그냥 배포 가능→ 약 20MB 네이티브 라이브러리 — 앱 패키지에 포함해서 배포, 추가 설치 없음→ OpenAI 호환 API — 기존 openai.ChatCompletion 코드에서 base_url만 바꾸면 즉시 로컬 전환→ 자동 하드웨어 가속: Intel NPU(OpenVINO)·AMD ..

LLM 2026.06.04
반응형