본문 바로가기

LLM

Anthropic이 숨기려 했던 AI — Claude Mythos 유출 사건 완전 정리

반응형

2026년 3월 26일 밤, 보안 연구원 두 명이 인터넷에서 이상한 걸 발견했어요.

공개 검색이 가능한 서버에 Anthropic의 미공개 블로그 포스트 수천 개가 올라와 있었어요. 그 안에는 아직 세상에 공개된 적 없는 AI 모델 이야기가 담겨 있었어요.

"지금까지 우리가 만든 것 중 가장 강력한 모델."

이게 Claude Mythos 유출 사건의 시작이에요.


어떻게 유출됐나

Anthropic의 CMS(콘텐츠 관리 시스템) 설정 오류가 원인이었어요. 미공개 초안 블로그 포스트 약 3,000개가 공개 검색 가능한 데이터 캐시에 노출됐어요.

LayerX Security의 Roy Paz와 케임브리지 대학의 Alexandre Pauwels가 이 데이터를 발견했어요. Fortune이 내용을 검토한 뒤 Anthropic에 통보했고, Anthropic은 즉시 접근을 차단했어요.

근데 이미 늦었어요. Fortune이 보도했고, 내용이 퍼졌어요.

Anthropic은 "CMS 설정의 휴먼 에러"라고 인정하며 노출된 자료는 "출판 검토 중인 초안"이었다고 해명했어요.


유출 내용 — 뭐가 나왔나

모델 이름 혼선 — Mythos vs Capybara

흥미롭게도 같은 모델에 대한 초안이 두 버전으로 발견됐어요. 한 버전은 "Claude Mythos", 다른 버전은 "Claude Capybara"로 이름이 바뀌어 있었어요. Anthropic이 출시 전 두 이름 사이에서 고민 중이었던 거예요.

이름의 의미는 같아요. 둘 다 "지식과 아이디어를 연결하는 깊은 연결 조직을 연상시키기 위해" 선택됐다고 초안에 적혀 있었어요.

새로운 티어 — Opus 위의 존재

지금까지 Claude 모델은 세 티어였어요.

기존 티어:
Haiku (소형) → Sonnet (중형) → Opus (대형·최강)

Mythos 출시 이후:
Haiku → Sonnet → Opus → [새 티어: Capybara/Mythos]

초안에 이렇게 적혀 있었어요.

"Capybara는 우리의 Opus 모델보다 크고 더 지능적인 새로운 모델 티어의 새 이름이다. Opus는 지금까지 우리의 가장 강력한 모델이었다."

Opus 위에 새로운 최상위 티어가 생기는 거예요.

성능 — "극적으로 높은 점수"

초안에 따르면 Mythos는 Claude Opus 4.6 대비 세 영역에서 극적으로 높은 점수를 기록했어요.

- 소프트웨어 코딩
- 학술적 추론
- 사이버보안

구체적인 벤치마크 수치는 공개되지 않았어요. 하지만 "극적으로"라는 표현이 눈에 띄어요. Anthropic이 자사 모델에 이런 표현을 쓰는 건 드문 일이에요.

가격 — "매우 비쌀 것"

초안은 솔직하게 인정했어요.

"이 모델은 우리가 서비스하기 매우 비싸고, 우리 고객에게도 매우 비쌀 것이다. 일반 출시 전에 훨씬 더 효율적으로 만들기 위해 작업 중이다."

Opus 4.6의 입력 가격이 이미 $5/M 토큰으로 비싼데, Mythos는 그 위라는 얘기예요.


가장 충격적인 내용 — 사이버보안 위협

유출에서 가장 주목받은 부분은 성능이 아니에요. 보안 경고였어요.

초안에 이렇게 적혀 있었어요.

"Mythos는 현재 사이버 능력에서 다른 어떤 AI 모델보다 훨씬 앞서 있다. 이는 방어자의 노력을 훨씬 능가하는 방식으로 취약점을 악용할 수 있는 모델들의 다가오는 파도를 예고한다."

이걸 읽은 사람들이 충격받은 이유가 있어요. AI 회사가 자사 모델을 직접 "사이버 위협"으로 묘사한 건 유례가 없었거든요.

Axios 보도에 따르면 Anthropic은 유출 전부터 이미 미국 정부 고위 관리들에게 비공개로 경고했다고 해요.

"Mythos급 AI가 있으면 2026년에 대규모 사이버 공격 가능성이 크게 높아진다. 이 수준의 에이전트는 최소한의 인간 개입으로 복잡한 작업을 계획하고 실행할 수 있다."

실제로 참고할 만한 전례도 있어요. 2025년 9월, 중국 국가 지원 해킹 그룹이 이전 Claude 모델을 이용해 기술 기업, 금융 기관, 정부 기관 30여 곳에 대한 공격을 80~90% 자율적으로 수행한 사건이 있었어요. AI가 표적을 식별하고, 취약점을 찾고, 공격 코드를 작성하고, 작전 보고서까지 스스로 만들었어요. Anthropic이 탐지해서 차단했지만, 이게 Mythos급이면 어떻게 될지가 문제예요.


Anthropic의 대응 — Project Glasswing

유출 이후 11일 뒤인 4월 7일, Anthropic은 예상보다 빠르게 움직였어요.

Project Glasswing을 발표하면서 Mythos Preview를 제한적으로 공개했어요.

핵심 내용은 이래요.

파트너 조직: 12개 기업 — Amazon, Apple, Broadcom, Cisco, CrowdStrike, Linux Foundation, Microsoft, Palo Alto Networks 등

목적: 방어적 사이버보안에만 사용. 취약점을 악용하는 게 아니라 찾아서 고치는 용도.

성과: 수천 개 제로데이 취약점 발견 — 많은 것들이 10~20년 된 코드에 숨어 있던 버그들이에요.

일반 공개 없음 — 40개 조직만 프리뷰 접근 가능. 나머지는 효율화 완료 후 일반 출시 예정.


왜 일반 공개를 안 하나

두 가지 이유예요.

첫째, 보안 리스크. 방어용으로 쓰면 취약점을 찾는 AI지만, 공격용으로 쓰면 취약점을 악용하는 AI가 돼요. 같은 칼날이에요. 일반에 공개하면 악의적 사용자가 사이버 공격 무기로 쓸 수 있어요.

둘째, 비용. Anthropic이 직접 "매우 비싸다"고 인정했어요. 효율화 없이 출시하면 대부분의 개발자가 쓰기 어려운 가격이 될 거예요.


유출이 남긴 것들

이 사건은 AI 업계에 몇 가지 중요한 질문을 던졌어요.

AI 능력이 공개 전 충분히 검토되고 있나? 이번처럼 실수로 유출되지 않았다면 일반 대중은 이 수준의 AI가 이미 존재한다는 걸 몰랐을 거예요.

프론티어 AI는 공개하지 않는 게 맞나? Anthropic은 Mythos를 일반 공개하지 않기로 했어요. 이건 AI 안전 논쟁의 새로운 장을 열었어요. 강력한 모델을 공개하는 게 맞는지, 아니면 제한된 파트너십으로만 운영하는 게 맞는지.

오픈소스 AI와 클로즈드 AI의 격차가 더 벌어지나? Gemma 4, DeepSeek V4가 오픈소스를 밀어붙이는 동안, 가장 강력한 AI는 소수 기업만 접근할 수 있는 구조가 되고 있어요.


마무리

Claude Mythos 유출 사건을 한 줄로 요약하면 이래요.

"Anthropic이 세상에 공개하기엔 너무 강력한 AI를 이미 만들어놓고 있었고, 실수로 들켰다."

이게 단순히 회사 하나의 실수가 아니에요. AI가 이미 어느 수준까지 왔는지를 보여주는 사건이에요. 그리고 앞으로 AI 공개와 규제에 대한 논쟁이 훨씬 더 치열해질 거라는 신호예요. 😄

 

반응형