반응형

Qwen3.5 2

SLM 실전 가이드 — Gemma 4, Qwen3.5, Phi-4로 API 비용 95% 줄이는 법

Claude API 쓰다 보면 월말에 이런 청구서가 날아와요.API 비용: $3,200예산: $500원인은 단순해요. 모든 요청에 수천억 파라미터 모델을 쓰고 있어서예요.고객이 "배송 얼마나 걸려요?"라고 물어봐도 Claude Opus가 답하고 있어요.SLM(Small Language Model)은 이걸 해결해요.SLM이 뭔가LLM: 100B ~ 1T+ 파라미터SLM: 500M ~ 10B 파라미터LLM:→ H100 GPU 여러 장 필요→ API 비용 높음→ 응답 느림SLM:→ RTX 4070 노트북 1대로 가능→ 로컬 실행 시 비용 거의 0→ 응답 빠름2026년 기준으로 프로덕션 AI 업무의 80%는 SLM으로 충분해요.2026년 주요 SLM 정리Microsoft Phi-4 Mini (3.8B)특징:- ..

LLM 2026.04.15

Qwen 3.5 완전 분석 — 397B 파라미터인데 왜 저렴하고 빠른가

2026년 2월 16일, Alibaba가 Qwen 3.5를 공개했어요.공개하자마자 오픈소스 AI 커뮤니티가 뒤집혔어요.Qwen3.5-9B → GPT-OSS-120B(13배 큰 모델) 성능 능가Qwen3.5-35B-A3B → 이전 세대 235B 플래그십 능가Qwen3.5-397B-A17B → GPT-5.2, Gemini 3 Pro와 정면 승부Apache 2.0 → 상업적 사용 완전 무료핵심 — MoE 아키텍처가 뭔가Qwen 3.5의 핵심은 Sparse Mixture-of-Experts(희소 혼합 전문가) 구조예요.일반 LLM:요청 → 전체 파라미터 사용 → 응답(100% 파라미터 항상 활성화)Qwen 3.5 MoE:요청 → 관련 전문가 그룹만 활성화 → 응답(총 397B 중 17B만 활성화)활성화 비율: ..

LLM 2026.04.15
반응형