본문 바로가기

LLM

Anthropic이 가장 강력한 모델을 공개하지 않은 이유 — Mythos Preview 완전 분석

반응형

2026년 4월 7일, Anthropic이 사상 처음으로 출시하지 않을 모델의 244페이지 시스템 카드를 공개했어요.

모델 이름은 Claude Mythos Preview.

공개하지 않는 이유는 단 하나예요.

"이 모델은 해킹을 할 수 있다."


Mythos가 발견한 것들

Anthropic 레드팀이 지난 몇 주간 Mythos Preview를 돌린 결과예요.

발견한 것:

  • 모든 주요 운영체제(Windows, macOS, Linux, FreeBSD 등)에서 제로데이 취약점 발견
  • 모든 주요 웹브라우저에서 제로데이 취약점 발견
  • 발견된 취약점 수: 수천 개, 다수가 Critical 등급
  • 발견된 취약점의 99% 이상이 아직 패치 안 됨

대표 사례 — 17년된 FreeBSD 취약점

CVE-2026-4747:
- FreeBSD NFS에 존재하던 원격 코드 실행 취약점
- 17년간 어떤 인간도 발견 못함
- Mythos가 완전 자율로 발견 + 익스플로잇 코드까지 작성
- "완전 자율"이란 초기 명령 이후 인간 개입 없음을 의미
- 인터넷 어디서든 미인증 상태로 서버 루트 권한 탈취 가능

브라우저 익스플로잇 체이닝

단순히 취약점을 찾는 게 아니에요. Mythos는 4개 취약점을 연결해서 렌더러 샌드박스와 OS 샌드박스를 모두 탈출하는 복합 공격을 자율로 설계했어요.

Anthropic 연구원 Nicholas Carlini의 말이에요.

"내가 인생 전체에서 찾은 버그보다 지난 몇 주 동안 더 많은 버그를 찾았다."


왜 공개하지 않았나

Mythos는 훈련을 통해 의도적으로 사이버보안 능력을 키운 게 아니에요.

"Mythos Preview에 이런 능력을 명시적으로 학습시키지 않았다. 코드, 추론, 자율성의 일반적 향상이 부산물로 만들어냈다."

즉, 더 강한 일반 모델을 만들다 보니 해킹 능력도 같이 올라간 거예요. 앞으로 모든 강력한 모델이 이 문제에 직면할 거라는 뜻이에요.

Anthropic은 세 가지 이유로 공개를 보류했어요.

1. 공격 능력이 방어 능력보다 빠르게 확산될 위험
2. 적대 세력(국가 해커, 사이버범죄 조직)이 악용 가능
3. 현재 안전장치가 Mythos급 모델에 충분하지 않음

AI 기업이 안전 우려로 모델을 공개 보류한 건 2019년 OpenAI의 GPT-2 이후 7년 만이에요.


Project Glasswing — 방어가 먼저다

Anthropic의 전략은 이래요.

"공격 AI가 퍼지기 전에, 방어 AI로 먼저 취약점을 막아라."

Project Glasswing 구조

핵심 파트너 12개사:
AWS, Apple, Broadcom, Cisco, CrowdStrike,
Google, JPMorgan Chase, Linux Foundation,
Microsoft, NVIDIA, Palo Alto Networks + Anthropic

추가 액세스: 40개 이상 조직 (핵심 소프트웨어 인프라 관리사)

지원 규모:
- Mythos Preview 사용 크레딧 1억 달러
- 오픈소스 보안 단체 직접 기부 400만 달러

목표:
- 파트너사 자체 시스템 취약점 탐색 + 패치
- 오픈소스 코드 스캔
- 발견 내용 업계 공유

파트너사들은 Mythos를 방어 목적으로만 사용해요. 취약점 발견 후 135일 이내 공개 의무가 있어요.


벤치마크 성능

Mythos는 사이버보안 외에도 전반적으로 강력해요.

벤치마크 Mythos Preview Claude Opus 4.6 GPT-5.4

SWE-bench Verified 93.9% 80.8% ~80%+
GPQA Diamond 94.6% 92.7% 92.8%
사이버보안 기존 벤치 포화

사이버보안 벤치마크는 Mythos가 이미 포화(saturation)해서 의미 있는 측정이 안 돼요. 그래서 실제 제로데이 발견으로 역량을 측정했어요.


AI 사이버보안의 패러다임 전환

기존 방식의 한계

기존 취약점 탐색:
- 인간 보안 연구원이 코드 수동 분석
- 자동화 도구 (퍼저, 정적 분석) 보조
- 복잡한 취약점 체이닝은 최고급 인력만 가능
- 17년된 FreeBSD 버그 = 아무도 못 찾음

결과: 취약점 탐색 속도가 소프트웨어 생산 속도를 못 따라감

AI 등장 후

Mythos 방식:
- 코드베이스 전체 자율 스캔
- 복합 취약점 체이닝 자동 설계
- 수십 년된 버그도 몇 시간 내 발견
- 인간 최고수보다 빠르고 광범위

결과: 방어와 공격 모두 전례 없는 속도로 가능

공격자도 같은 걸 갖게 된다

Anthropic이 가장 우려하는 건 이거예요.

"Anthropic만 이런 모델을 갖고 있는 게 아니다. 곧 다른 곳도 갖게 된다."

이미 위협 행위자들은 AI 에이전트로 취약점 자동화 스캔을 시작했어요. Trend Micro, Palo Alto Networks 모두 2026년 최대 위협으로 AI 기반 자동 취약점 탐색을 꼽고 있어요.

Anthropic이 정부에도 비공개로 경고했어요. 내용은 이래요.

"Mythos는 올해 대규모 사이버 공격 가능성을 유의미하게 높인다."


앞으로 어떻게 되나

Anthropic의 계획이에요.

현재:
Mythos Preview → 40개 파트너 한정 방어 목적만

다음 단계:
Claude Opus 차기 버전에 새로운 안전장치 탑재
→ Mythos급 모델의 위험한 출력 탐지/차단 기술 개발
→ 안전장치 검증 완료 후 Mythos급 능력 일반 배포

목표:
방어가 공격보다 앞서 있는 상태 유지

마무리

Mythos Preview와 Project Glasswing이 의미하는 바를 정리하면 이래요.

"AI 사이버보안의 시대는 2026년 4월 7일에 시작됐다."

17년간 아무도 못 찾은 버그를 AI가 몇 시간 만에 찾는다는 건, 인류의 소프트웨어 인프라 전체가 이제 완전히 다른 위협 환경에 놓였다는 의미예요.

Anthropic의 선택은 쉽지 않았을 거예요. 가장 강력한 모델을 공개하지 않는 건 상업적으로 손해예요. 그런데도 보류한 이유는 하나예요. 방어가 준비되기 전에 공격이 먼저 퍼지면 안 된다는 거예요. 😄


 

반응형