API 키 없고, 서버 없고, 토큰 비용 없습니다. Llama·Gemma·Phi가 사용자 브라우저 GPU에서 직접 돌아갑니다. 프롬프트가 외부로 나가지 않습니다. 2026년 기준 브라우저가 AI 추론 런타임이 됐습니다.[핵심 요약]→ WebLLM: MLC AI(Carnegie Mellon·SJTU·NVIDIA)가 만든 오픈소스 브라우저 LLM 라이브러리→ 동작 원리: WebGPU로 GPU 직접 접근 → 네이티브 수준 추론 속도→ OpenAI API 호환: chat.completions.create() 그대로 사용→ 지원 모델: Llama 3.2, Phi-3.5, Gemma 2, Mistral, Qwen 등→ 브라우저 지원: Chrome·Edge·Firefox·Safari 기본 활성화 (2025년 말부터)..