LLM

MiniMax M3 완전 분석 — GPT-5.5 제쳤다는 중국 오픈소스, 벤치마크·가격·보안 총정리

cell-devlog 2026. 6. 4. 16:39
반응형

 

6월 1일 출시됐고, 지금 이 시각 가장 뜨거운 오픈소스 AI 모델입니다.


핵심 요약

→ MiniMax M3, 2026년 6월 1일 출시 — 상하이 AI 스타트업 MiniMax의 새 플래그십
최초 주장: 오픈웨이트 모델 중 프론티어 코딩 + 1M 토큰 컨텍스트 + 네이티브 멀티모달 셋을 동시에 갖춘 첫 모델
→ SWE-Bench Pro 59.0% — GPT-5.5(58.6%) 소폭 초과 (MiniMax 자체 벤치마크)
→ Terminal-Bench 2.1 66.0%, MCP Atlas 74.2%, BrowseComp 83.5
→ 핵심 아키텍처: MiniMax Sparse Attention(MSA) — 1M 컨텍스트에서 M2 대비 디코딩 15.6배·프리필 9.7배 빠름
→ 가격: 론칭 프로모 $0.30/$1.20 (입력/출력 /M) — 표준가 $0.60/$2.40, Claude Opus 4.8 대비 8~12배 저렴
→ 오픈웨이트 예고 — 론칭 10일 후 HuggingFace 공개 예정 (6월 10~11일)
→ 멀티모달: 텍스트·이미지·영상 입력 → 텍스트 출력, 네이티브 통합
주의사항 2가지: 벤치마크 전부 자체 측정 (독립 검증 아직 없음) + 중국 국가정보법 적용 기업
→ 자체 호스팅으로 보안 우려 해소 가능 — 오픈웨이트 공개 후 로컬 실행 가능


실전 1 — MiniMax M3가 뭔지, 왜 지금 화제인가

MiniMax는 상하이 기반 AI 스타트업으로, 2026년 1월 홍콩 증권거래소에 상장했습니다. M3는 DeepSeek V4 Pro 이후 중국 오픈소스 AI의 두 번째 대형 충격으로 받아들여지고 있어요.

화제가 된 이유 3가지:

1. 벤치마크: GPT-5.5 넘었다는 주장 (오픈소스로는 처음)
2. 가격: Claude Opus 4.8보다 12배 저렴한 API
3. 오픈웨이트: 곧 직접 다운로드·자체 호스팅 가능

M2 시리즈와의 차이:

MiniMax M2.7 MiniMax M3

컨텍스트 204K 토큰 1M 토큰
아키텍처 풀 어텐션 MSA(Sparse Attention)
멀티모달 제한적 텍스트·이미지·영상 네이티브
SWE-Bench Pro 미공개 59.0%
입력 가격 $0.279/M $0.60/M (프로모 $0.30)

실전 2 — MSA 아키텍처: 왜 중요한가

M3의 기술적 핵심은 **MiniMax Sparse Attention(MSA)**입니다.

일반 트랜스포머 어텐션의 문제:

기존 풀 어텐션:
모든 토큰이 모든 다른 토큰에 어텐션
→ 컨텍스트 2배 = 연산량 4배 (이차함수 증가)
→ 1M 토큰 처리 시 비용·레이턴시 폭발

MSA 해결 방식:

경량 인덱스 브랜치가 들어오는 토큰을 스캔해서 실제로 어텐션이 필요한 KV 블록만 골라냅니다. 중요한 점은 압축되지 않은 실제 key-value에 대해 연산하기 때문에, DeepSeek의 레이턴트 어텐션처럼 장문 컨텍스트 정밀도 손실이 없습니다.

MSA 결과 (MiniMax 주장, M2 대비):
- 1M 컨텍스트 디코딩: 15.6배 빠름
- 1M 컨텍스트 프리필: 9.7배 빠름
- 연산 비용: 이전 세대 대비 약 1/20
- 품질: ablation 테스트에서 동등 유지

→ 1M 토큰을 현실적인 비용으로 쓸 수 있게 만드는 핵심 기술


실전 3 — 벤치마크 수치 완전 정리

MiniMax 자체 보고 수치 (독립 검증 진행 중):

벤치마크 M3 Claude Opus 4.8 GPT-5.5

SWE-Bench Pro 59.0% 69.2% 58.6%
Terminal-Bench 2.1 66.0% 74.6% 72.1%
MCP Atlas 74.2% 미공개 미공개
BrowseComp 83.5 미공개 미공개
PostTrainBench 0.37 (3위) 0.42 (1위) 0.39 (2위)

벤치마크 해석 시 주의:

MiniMax의 모든 벤치마크 수치는 MiniMax가 자체 인프라에서 MiniMax가 구성한 평가 환경을 사용해 MiniMax가 선택한 기준선과 비교한 것입니다. 독립 리뷰어 Thomas Wiegold는 "저 숫자들은 전부 vendor-run이고, MiniMax 자체 인프라에서, 그들이 고른 기준선으로, 종종 Claude Code를 스캐폴딩으로 사용한 것"이라고 지적했습니다.

→ Artificial Analysis·LMArena 독립 평가 결과 나오면 업데이트 예정
→ BenchLM 잠정 순위: 119개 모델 중 28위, 에이전트 카테고리 13위


실전 4 — 가격 완전 정리

API 접근 방법:

경로 입력 가격 출력 가격 비고

OpenRouter (프로모) $0.30/M $1.20/M 론칭 50% 할인
OpenRouter (표준) $0.60/M $2.40/M 프로모 종료 후
MiniMax 직접 API ~¥2.1/M (~$0.30) ~¥8.4/M (~$1.20) 512K 이하 컨텍스트
오픈웨이트 자체 호스팅 0 (전기·하드웨어만) 0 6월 10~11일 예정

경쟁 모델과 비교:

모델 입력 출력 비고

MiniMax M3 (프로모) $0.30 $1.20 오픈웨이트, 1M ctx
DeepSeek V4 Pro $0.435 $0.87 오픈웨이트, 1M ctx
MiniMax M3 (표준) $0.60 $2.40  
Claude Opus 4.8 $5.00 $25.00 독점, 200K ctx
GPT-5.5 $5.00 $30.00 독점, 1M ctx

→ Claude Opus 4.8 대비 출력 기준 12.5배 저렴 (프로모 기준 25배)
→ DeepSeek V4 Pro보다 출력은 더 비싸지만 멀티모달·MSA 속도 우위


실전 5 — API 바로 쓰는 법

OpenRouter 경유 (가장 빠른 방법):

from openai import OpenAI
import os

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=os.environ["OPENROUTER_API_KEY"]
)

response = client.chat.completions.create(
    model="minimax/minimax-m3",
    messages=[{
        "role": "user",
        "content": "이 Express 앱을 의존성 주입 패턴으로 리팩토링해줘"
    }],
    max_tokens=4096
)
print(response.choices[0].message.content)

MiniMax 직접 API:

client = OpenAI(
    base_url="https://api.minimax.io/v1",
    api_key=os.environ["MINIMAX_API_KEY"]
)

response = client.chat.completions.create(
    model="minimax-m3",
    messages=[{"role": "user", "content": "안녕"}]
)

이미지 입력 (멀티모달):

response = client.chat.completions.create(
    model="minimax/minimax-m3",
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://example.com/diagram.png"}
            },
            {
                "type": "text",
                "text": "이 아키텍처 다이어그램의 문제점을 분석해줘"
            }
        ]
    }]
)

실전 6 — 장기 자율 실행 데모: M3가 보여준 것들

MiniMax가 공개한 세 가지 내부 데모입니다. 벤치마크와 달리 실제 장기 실행 능력을 보여주는 사례예요.

데모 1: ICLR 논문 재현 (12시간)

M3은 LLM 파인튜닝에 관한 ICLR 2025 Outstanding Paper의 핵심 실험을 거의 12시간 동안 독립적으로 재현하며 18개의 커밋과 23개의 실험 그림을 생성했습니다.

데모 2: GPU 커널 최적화 (24시간)

M3가 24시간 동안 자율 실행:
- 147번 벤치마크 제출
- 1,959회 툴 호출
- NVIDIA Hopper GPU 행렬 곱셈 커널 최적화
- 결과: 하드웨어 활용률 7.6% → 71.3% 개선

데모 3: PostTrainBench (모델 훈련)

4개의 사전훈련 베이스 모델을 받아서 데이터 합성·훈련·평가·반복 전체 파이프라인을 12시간 안에 자율 실행
→ 0.37점으로 전체 3위 (1위 Opus 4.7: 0.42, 2위 GPT-5.5: 0.39)


실전 7 — ⚠️ 반드시 알아야 할 두 가지 주의사항

주의 1. 벤치마크 전부 자체 측정

스탠퍼드 HAI 2026 AI 인덱스는 주요 벤치마크의 유효하지 않은 질문 비율이 2~42%에 달해 누가 평가를 수행했는지와 관계없이 직접 비교를 복잡하게 만든다고 지적합니다.

→ Artificial Analysis 독립 평가 결과가 나오는 6월 중순 이후 재평가 권장

주의 2. 중국 국가정보법 (호스팅 API 사용 시)

중국의 2017년 국가정보법에 따라 MiniMax를 포함한 모든 중국 기업은 정부 정보 업무를 "지원하고, 협조하고, 협력"해야 합니다. 이 의무는 사전 요청과 관계없이 지속적으로 적용되며, 회사가 거부할 수 있는 법적 경로를 제공하지 않습니다.

리스크 레벨별 대응:

사용 데이터 유형 권장 접근 방식

공개 코드·일반 텍스트 MiniMax API 사용 무방
내부 코드·비공개 프로젝트 주의 필요 — 오픈웨이트 자체 호스팅 고려
계약서·전략 문서 API 사용 지양 — 자체 호스팅 권장
의료·금융·법률 기밀 자체 호스팅 또는 서방 벤더 사용

핵심: 오픈웨이트 공개 후 자체 호스팅하면 이 우려 대부분 해소됨


실전 8 — DeepSeek V4 Pro vs MiniMax M3 선택 가이드

둘 다 중국 오픈소스, 둘 다 저렴. 어떻게 다른가.

MiniMax M3 DeepSeek V4 Pro

SWE-Bench Pro 59.0% 55.4%
SWE-Bench Verified 미공개 80.6%
멀티모달 ✅ 이미지+영상 ❌ 텍스트만
컨텍스트 1M 토큰 1M 토큰
출력 가격 (표준) $2.40/M $0.87/M
아키텍처 MSA sparse MoE
오픈웨이트 예정 (6월 10일~) ✅ 공개됨

결론: → 멀티모달 + 이미지·영상 처리 필요 → M3
→ 순수 코딩·텍스트, 비용 최소화 → DeepSeek V4 Pro
→ 독립 벤치마크 더 신뢰 → DeepSeek V4 Pro (검증 더 많음)


✅ M3 써볼 만한 경우 / ❌ 아직 기다려야 하는 경우

✅ ❌

긴 코드베이스 분석 (1M 컨텍스트 활용) 독립 벤치마크 전 프로덕션 크리티컬 투입
이미지·영상 포함 멀티모달 에이전트 워크플로우 민감 데이터를 API에 전송하는 경우 — 웨이트 공개 기다려 자체 호스팅
DeepSeek보다 멀티모달이 필요한 에이전트 라이선스 최종 확인 전 상업적 제품 출시
고사용량 파이프라인 비용 절감 BrowseComp·MCP Atlas 수치만 보고 판단 — 아직 자체 측정만

 

반응형