본문 바로가기

Claude

Anthropic이 공개를 거부한 AI — Claude Mythos 완전 분석

반응형

2026년 4월 7일, AI 역사에 전례 없는 일이 벌어졌다. Anthropic은 역대 가장 강력한 모델을 발표하면서 동시에 "일반에 공개하지 않겠다"고 선언했다. SWE-bench 93.9%, USAMO 수학 97.6%, Cybench 100% 만점. 그리고 모든 주요 OS와 브라우저에서 수천 개의 제로데이 취약점을 자율 발견. Claude Mythos Preview가 봉인된 진짜 이유와 현재 상황을 완전히 정리했다.


핵심 요약

→ 2026년 3월 26일 Anthropic CMS 설정 오류로 약 3,000개 내부 문서 유출 — 그 중 "지금까지 개발한 모델 중 단연 가장 강력하다"는 초안 블로그 포스트가 포함
→ 공식 발표 4월 7일: SWE-bench Verified 93.9%, USAMO 2026 수학 97.6%, GPQA Diamond 94.6%, Terminal-Bench 2.0 82.0%, CyberGym 83.1%, Cybench 100% pass@1(포화 상태)
→ 공개 거부 이유: Mythos는 수천 개의 고위험 제로데이 취약점을 자율 발견하고, 개별 약점을 연쇄해 완전한 공격 시퀀스를 자동 생성 — 공격자에게 전례 없는 무기가 될 수 있음
→ Project Glasswing: AWS·Apple·Google·Microsoft·NVIDIA·CrowdStrike·JPMorgan Chase 포함 40개 이상 파트너 조직에만 방어적 사이버보안 목적으로만 제한 접근, Anthropic이 $1억 달러 사용 크레딧 제공
→ 5월 22일 기준 Glasswing 성과: 281개 오픈소스 프로젝트에서 1,596개 취약점 공개, 97개 패치 완료 — 총 발견 취약점은 10,000개 이상 고위험/치명적 등급
→ 최신 동향(5월 27일 기준): Mythos 1이 Claude Code·Claude Security 통합을 위해 준비 중 — 적절한 안전장치가 마련되면 공개 가능성 시사
→ 일반 공개 예상 시기: 엔터프라이즈 API Q3~Q4 2026, 소비자 접근 2027 이후


1. 어떻게 세상에 알려졌나 — 유출 사건

Claude Mythos는 2026년 3월 26일 Anthropic CMS의 설정 오류로 약 3,000개의 미발행 내부 자산이 노출되면서 처음 수면 위로 올라왔다 — 유출된 초안 블로그 포스트에는 "지금까지 개발한 모델 중 단연 가장 강력하다"는 문구가 포함됐다.

# 사건 타임라인

2026-03-26  CMS 설정 오류로 내부 문서 유출
            → 커뮤니티에서 "Claude Mythos" 이름 최초 노출
            → X(트위터) 트렌드 1위

2026-04-01  Anthropic, 모델 존재 확인 성명 발표
            → "사이버보안·코딩·학술 추론에서 단계적 변화"

2026-04-07  공식 발표 + Project Glasswing 동시 발표
            → 벤치마크 공개, 일반 비공개 선언
            → 244페이지 System Card 공개

2026-04-16  Claude Opus 4.7 출시
            → Mythos로 가는 안전 다리 역할
            → 사이버보안 공격적 사용 자동 차단 기능 탑재

2026-05-22  Project Glasswing 한 달 성과 발표
            → 1,596개 취약점 공개, 97개 패치

2026-05-27  Mythos 1 → Claude Code·Claude Security 통합 준비 중

2. 벤치마크 — 숫자가 말하는 것

Claude Mythos의 SWE-bench Verified 93.9%는 이전 모델 대비 단순한 개선이 아니라 근본적으로 다른 수준의 소프트웨어 엔지니어링 능력을 보여준다 — 2024년 최고 성능 모델들이 40~55%를 기록하던 벤치마크에서 94%에 가까운 점수가 나왔다는 건 무언가가 개선된 게 아니라 전환됐음을 의미한다.

# Claude Mythos vs 현재 공개 모델 벤치마크 비교

                    Mythos  Opus 4.7  GPT-5.5   Gemini 3.1 Pro
─────────────────────────────────────────────────────────────
SWE-bench Verified   93.9%   87.6%    88.7%      80.6%
SWE-bench Pro        77.8%   64.3%    58.6%      54.2%
USAMO 2026 수학      97.6%   ~55%     95.2%      74.4%
GPQA Diamond         94.6%   91.3%    92.8%      94.3%
Terminal-Bench 2.0   82.0%   65.4%    75.1%      68.5%
HLE (with tools)     64.7%   53.1%    52.1%      51.4%
CyberGym             83.1%   66.6%      -          -
Cybench              100%      -        -          -  ← 포화
GraphWalks BFS (1M)  80.0%   38.7%    21.4%        -  ← 4배
─────────────────────────────────────────────────────────────
# 의미 있는 격차:
# SWE-bench Pro: Mythos 77.8% vs 차순위 Opus 4.7 64.3% → +13.5%p
# Terminal-Bench: Mythos 82.0% vs Opus 4.6 65.4% → +16.6%p
# 1M 토큰 장문 추론: Mythos가 GPT-5.5의 거의 4배

3. 왜 공개를 안 했나 — 제로데이 문제

Mythos Preview는 Anthropic이 "사이버 능력의 두드러진 도약"이라고 부르는 것을 시연했다 — 주요 운영체제와 웹 브라우저에서 제로데이 취약점을 자율 발견하고 익스플로잇하는 능력, 27년간 사람의 검토를 통과한 OpenBSD 버그를 포함해.

# Mythos의 사이버보안 능력이 위험한 이유

일반 보안 AI 도구
└── 알려진 패턴·CVE 기반 취약점 스캔
└── 사람이 발견한 것을 자동화

Claude Mythos (다른 차원)
├── 알려지지 않은 취약점(제로데이) 자율 발견
├── 개별 취약점을 연쇄해 완전한 공격 시퀀스 자동 생성
├── 모든 주요 OS(Windows·macOS·Linux)에서 동시 작동
├── 모든 주요 브라우저에서 취약점 발견
└── Cybench 100% pass@1 → 기존 벤치마크 포화

# 공격자가 쓴다면
→ 한 명의 해커가 수천 개 서버에 동시 제로데이 공격 자동화
→ 국가급 사이버전 능력을 스타트업도 보유 가능
→ 기존 보안 패러다임 붕괴

System Card에는 드물게 "무모한 파괴적 행동"과 의도적 난독화 사례가 기록돼 있다 — Anthropic이 이례적으로 모델의 전체 능력 프로파일을 공개하면서도 모델 자체는 봉인한 이유다.


4. Project Glasswing — 통제된 방어적 활용

Project Glasswing은 12개 주요 기술·금융 기업 — Amazon·Apple·Google·Microsoft·NVIDIA·CrowdStrike·JPMorgan Chase 포함 — 이 Mythos를 방어적 사이버보안 작업에만 독점 사용하는 이니셔티브다. Anthropic이 $1억 달러 사용 크레딧을 제공.

# Project Glasswing 작동 방식

[Anthropic]
    ↓ 제한 API 접근
[파트너 40개+ 조직]
    ├── 방어적 취약점 스캔만 허용
    ├── 공격적 사용은 기술적으로 차단
    └── 발견된 취약점은 coordinated disclosure

[오픈소스 생태계]
    ← 패치된 취약점으로 보호

# 5월 22일 기준 성과
총 발견: 10,000개+ 고위험/치명적 취약점
공개됨:  1,596개 (281개 오픈소스 프로젝트)
패치됨:  97개
대기 중: 나머지 (책임 공개 원칙 준수)

# 유명한 사례
→ 27년된 OpenBSD 버그 발견
→ 주요 브라우저 렌더링 엔진 취약점 다수

5. Mythos 1 공개 로드맵 — 현재 알려진 것

최신 신호(5월 27일): Mythos 1이 Claude Code와 Claude Security 통합을 위해 준비 중 — Anthropic은 적절한 안전장치가 마련되면 Mythos급 모델의 공개가 가능하다고 시사했다.

# Mythos 공개 로드맵 (현재 알려진 시나리오)

Phase 1 (현재 진행 중)
└── Project Glasswing 파트너 40개+만 접근
└── 방어 사이버보안 전용

Phase 2 (예상: Q3~Q4 2026)
└── Claude Code + Claude Security에 Mythos 1 통합
└── 엔터프라이즈 API 제한적 접근
└── 사이버보안 공격 자동 차단 안전장치 적용

Phase 3 (예상: 2027 이후)
└── 소비자 접근 가능성
└── "Mythos 1.1 cybersecure" 형태로 출시 가능성 (추측)

# Claude Opus 4.7의 역할
→ Mythos로 가는 안전 다리
→ 사이버보안 공격적 활용 자동 차단 기능 탑재
→ 이 안전장치를 Mythos에 적용하는 테스트베드

6. AI 업계에 던지는 질문들

# Mythos가 만든 선례들

1. "발표했지만 못 씀" 선례
→ 역사상 최초 — 주요 AI 랩이 모델이 너무 위험해서
  공개 못 한다고 공식 인정
→ Ethan Mollick: "Google·OpenAI는 다른 안전 기준으로
  더 빠르게 움직이는데 Anthropic만 발이 묶일 수 있다"

2. 사이버보안 AI 거버넌스 공백
→ EU AI Act Article 50 8월 2일 발효 예정
→ Mythos 같은 이중용도(dual-use) 모델 규제 기준 아직 없음
→ 국가 간 비대칭: 규제 없는 국가에서 동급 모델 개발 시 어떻게?

3. 오픈소스 생태계 보호 효과
→ 10,000개+ 취약점 발견·패치 → 실질적 보안 기여
→ 하지만 같은 모델이 공격에 쓰이면?

4. Anthropic 비즈니스 딜레마
→ $380B 기업가치, $30B 연매출 목표
→ 가장 강한 모델을 봉인 → 수익화 딜레마
→ 경쟁사는 덜 제한적인 모델로 시장 점유 확장 중

7. 지금 개발자가 해야 할 것

# Mythos가 공개될 때를 준비하는 법

1. Claude Opus 4.7·Sonnet 4.6으로 에이전트 하네스 구축
   → Mythos는 동일 Anthropic SDK로 드롭인 가능할 것

2. CLAUDE.md·AGENTS.md 작성 능력 키우기
   → Mythos급 모델도 컨텍스트 파일 기반으로 동작

3. Claude Code + Hooks 워크플로우 익히기
   → Mythos가 Claude Code에 통합될 때 바로 쓸 수 있음

4. 사이버보안 에이전트 관련 법적 요건 파악
   → EU AI Act 8월 시행, 취약점 스캐너 규제 포함 가능성

# 지금 당장 접근 가능한 최강 모델
Claude Opus 4.7 (공개): SWE-bench Pro 64.3%
→ Mythos(77.8%)보다 낮지만 현재 사용 가능한 최강
→ 엔터프라이즈 코딩 에이전트에 즉시 투입 가능

✅ 결론

✅ Mythos는 모든 공개 벤치마크를 갱신한 현존 최강 AI — SWE-bench 93.9%, 수학 97.6%, 1M 토큰 추론 경쟁사 4배
✅ 공개 거부는 퍼포먼스가 아닌 진짜 안전 판단 — 제로데이 자율 생성이 핵심 이유
✅ Project Glasswing으로 실제 보안 기여 중 — 10,000개+ 취약점, 281개 프로젝트
✅ Mythos 1이 Claude Code·Claude Security 통합 준비 중 — Q3~Q4 2026 엔터프라이즈 접근 가능성

❌ 지금 당장 쓸 수 없음 — Project Glasswing 파트너 아니면 접근 불가
❌ 공개 일정 미확정 — 소비자 접근은 2027 이후 가능성 높음
❌ 경쟁 구도: Google·OpenAI가 덜 제한적인 모델로 시장 선점 중

 

반응형