반응형
2026년 4월 7일, Z.ai(구 Zhipu AI)가 GLM-5.1을 공개했어요.
공개 즉시 SWE-bench Pro 1위를 차지했어요.
SWE-bench Pro (실제 GitHub 이슈 해결):
GLM-5.1: 58.4% ← 1위
GPT-5.4: 57.7%
Claude Opus 4.6: 57.3%
Gemini 3.1 Pro: 55.1%
오픈소스 모델이 GPT-5.4와 Opus 4.6을 모두 제쳤어요.
근데 벤치마크 숫자보다 더 주목할 게 있어요.
Z.ai가 뭔가
원래 이름: Zhipu AI (智谱 AI)
배경: 칭화대학교 스핀오프
국제 브랜드: Z.ai
2026년 1월 8일: 홍콩 증시 IPO
→ 약 HKD 43.5억 ($5.58억) 조달
→ 시가총액: $528억
→ 세계 최초 상장 파운데이션 모델 기업
IPO 이후 출시 속도:
2월 11일: GLM-5
3월 15일: GLM-5-Turbo
3월 27일: GLM-5.1 API
4월 7일: GLM-5.1 오픈소스 공개
→ 6주 만에 3개 주요 모델
그리고 중요한 사실 하나: 엔비디아 칩 하나도 안 씀.
학습 인프라:
→ 화웨이 Ascend 910B 칩 10만 개
→ MindSpore 프레임워크
→ 미국 수출 규제 완전 우회
Z.ai는 2025년 1월부터 미국 Entity List 등재
→ 엔비디아/AMD 칩 접근 불가
→ 그래도 GPT-5.4를 이겼음
아키텍처
파라미터: 754B (총), 40B (토큰당 활성)
구조: Mixture-of-Experts (MoE)
컨텍스트: 200K 토큰
최대 출력: 128K 토큰
라이선스: MIT (완전 상업 이용 가능)
MoE 구조의 의미:
→ 754B 전체를 다 쓰지 않음
→ 각 토큰마다 40B만 활성화
→ 추론 비용이 40B 모델 수준
→ 성능은 700B+ 모델
GLM-5.1은 GLM-5의 포스트트레이닝 업그레이드예요. 아키텍처는 동일하고 RL 파이프라인을 코딩/에이전트 특화로 재조정한 거예요.
진짜 차별점 — 8시간 자율 실행
대부분의 AI 코딩 모델이 가진 고질적 문제가 있어요.
기존 모델의 한계:
→ 처음 30~40번 툴 호출: 빠른 진전
→ 그 이후: 같은 방법 반복
→ 더 시간 줘도 더 이상 개선 안 됨
→ 사람이 계속 개입해야 함
GLM-5.1은 이 패턴을 깼어요.
GLM-5.1 데모:
작업: Linux 데스크탑 환경을 처음부터 구축
시간: 8시간
반복: 655회 자율 반복
결과:
→ 파일 브라우저
→ 터미널
→ 텍스트 에디터
→ 시스템 모니터
→ 플레이 가능한 게임들
→ 모두 완성
추가로: 벡터 DB를 6.9배 속도 개선
어떻게 가능했냐면, Slime이라는 비동기 RL 인프라 덕분이에요.
기존 RL 학습:
생성 → 대기 → 학습 → 반복
(순차적, 비효율적)
Slime 비동기 RL:
생성과 학습을 동시에 진행
→ 학습 처리량 대폭 증가
→ 장기 에이전트 시나리오로 훈련 가능
→ 모델이 "포기" 대신 "전략 변경"을 배움
벤치마크 전체 비교
코딩/에이전트:
SWE-bench Pro: GLM-5.1 58.4 > GPT-5.4 57.7 > Opus 4.6 57.3 ← GLM 1위
Terminal-Bench 2.0: GPT-5.4 75.1 > GLM-5.1 69.0 > Opus 4.6 65.4
NL2Repo: Opus 4.6 49.8 > GLM-5.1 42.7 > GPT-5.4 41.2
MCP-Atlas: GLM-5.1 71.8 > GPT-5.4 69.1 > Opus 4.6 67.3 ← GLM 1위
BrowseComp: GLM-5.1 75.9 ← 압도적 1위
CyberGym: GLM-5.1 68.7 (GLM-5 대비 +20.4p)
추론:
AIME 2026: GPT-5.4 > GLM-5.1 95.3
GPQA-Diamond: GPT-5.4 > GLM-5.1 86.2
Arena.ai Code:
GLM-5.1 Elo 1530 → 글로벌 3위 (4월 10일 확인)
GLM-5 대비 +90 Elo (10점 차이도 의미 있는 리더보드에서)
솔직한 정리:
GLM-5.1이 앞서는 것:
→ SWE-bench Pro (코딩 에이전트)
→ MCP-Atlas (툴 사용)
→ BrowseComp (웹 탐색)
→ 장기 자율 실행
Claude Opus 4.6이 앞서는 것:
→ 종합 코딩 복합 점수
→ NL2Repo (레포 생성)
→ 컨텍스트 윈도우 (1M vs 200K)
→ 복잡한 멀티스텝 아키텍처 추론
독립 평가 결과:
GLM-5.1 = Opus 4.6 종합 성능의 94.6%
가격 비교
Claude Opus 4.6:
입력 $5/M토큰, 출력 $25/M토큰
GPT-5.4:
입력 $5/M토큰, 출력 $20/M토큰
GLM-5.1 API:
입력 $1.00/M토큰, 출력 $3.20/M토큰
→ Opus 대비 5~8배 저렴
GLM Coding Plan:
월 $3 (프로모션) / 분기 $27
→ Claude Code, Cursor에서 GLM-5.1 사용 가능
코딩 에이전트를 24시간 돌리면 비용 차이가 엄청나요.
에이전트 월 100만 건 처리 기준:
Claude Opus 4.6: ~$6,000
GLM-5.1: ~$1,000
같은 SWE-bench 수준인데 6배 차이
통합 방법
# Claude Code에서 GLM-5.1 사용
# ~/.claude/settings.json
{
"model": "GLM-5.1"
}
# vLLM으로 셀프호스팅
pip install vllm
vllm serve zai-org/GLM-5.1 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.95
# SGLang으로 서빙
pip install sglang
python -m sglang.launch_server \
--model-path zai-org/GLM-5.1 \
--tp 8
지원 툴:
Claude Code, OpenCode, Kilo Code
Roo Code, Cline, Windsurf, Cursor
Factory AI Droid
Venice.ai API
셀프호스팅 요구 사양
풀 정밀도 (FP16):
→ 754B × 2bytes = 약 1.5TB VRAM
→ H100 80GB × 20개 필요
→ 현실적으로 어려움
양자화 버전:
Q4_K_M: ~450GB → H100 × 6개
Q3_K_S: ~320GB → H100 × 4개
AWQ INT4: ~380GB
현실적인 개인/팀 운영:
→ API 사용 권장 ($1/M입력)
→ 데이터 프라이버시 필요하면 셀프호스팅
오픈소스 AI의 지형이 바뀌고 있다
2023년:
오픈소스 vs 클로즈드소스 격차: 2년
2024년:
격차: 1년
2025년:
격차: 6개월
2026년 4월:
오픈소스가 SWE-bench Pro 1위
중국 AI 랩들이 상위권을 점령하고 있어요.
오픈웨이트 모델 상위권:
Z.ai GLM-5.1
Alibaba Qwen 3.5
DeepSeek V3.2
Moonshot Kimi K2.5
디지털 주권 관점에서도 의미가 있어요. GLM-5.1은 MIT 라이선스로 누구나 다운로드, 수정, 상업적 이용이 가능해요. 미국 클라우드 없이, 특정 회사 API 없이, 완전 독립적으로 운영 가능한 프론티어급 코딩 에이전트예요.
반응형
'LLM' 카테고리의 다른 글
| Claude Opus 4.7 토크나이저 함정 — 같은 가격, 더 많은 비용 (0) | 2026.04.20 |
|---|---|
| Claude Opus 4.7 출시 — SWE-bench Pro 1위, GPT-5.4 완전히 제쳤다 (1) | 2026.04.17 |
| Anthropic Claude Opus 4.7 + AI 디자인 툴 이번주 출시 예정 — Figma, Wix 주가 폭락한 이유 (0) | 2026.04.16 |
| SGLang B300 GPU (SM103)에서 Qwen3.5 서빙 — Attention Backend (0) | 2026.04.15 |
| SGLang Attention Backend 완전 비교 — Triton, FlashInfer, FA3, TRTLLM (0) | 2026.04.15 |