LLM

"트랜스포머의 저주를 깼다" — SubQ 1200만 토큰 LLM 완전 분석

cell-devlog 2026. 5. 27. 15:04
반응형

2017년 트랜스포머가 등장한 이후 모든 LLM의 발목을 잡아온 제약이 있다. 컨텍스트가 2배 길어지면 연산량이 4배 늘어나는 2차 복잡도(O(n²)) 문제다. 이게 1M 토큰이 실질적 상한선인 이유고, RAG·청킹·벡터DB가 존재하는 이유다. 마이애미 스타트업 Subquadratic은 이 제약을 SSA(Subquadratic Sparse Attention)로 선형 복잡도로 만들었다고 주장한다. 주장이 맞다면 AI 경제학이 바뀐다. 틀리면 Mamba의 전철을 밟는다. 현재까지 알려진 것을 전부 정리했다.


핵심 요약

→ Subquadratic은 2026년 5월 5일 스텔스 해제, $29M 시드 펀딩 — SSA(Subquadratic Sparse Attention) 기반 최초 상용 LLM SubQ 출시
→ 주요 주장: 1,200만 토큰 컨텍스트 윈도우, FlashAttention 대비 52배 빠름(1M 토큰 기준), 프론티어 모델 대비 1/5 비용
→ RULER 128K 벤치마크: SubQ 95% 정확도 $8 비용 vs Claude Opus 94% 정확도 $2,600 비용 — 약 300배 비용 차이 (벤더 측정)
→ 핵심 경고: 회사가 실존하고 출시·펀딩·창업자 모두 검증됨 — 단 모든 성능 수치는 벤더 자체 측정, 독립 재현 없음, 기술 논문 미발행, 오픈 웨이트 없음
→ 프로덕션 API는 현재 1M 토큰까지만 지원 — 1,200만 토큰은 리서치 모델 한정, 조기 접근 대기 중
→ 로드맵: 2026년 Q4 5,000만 토큰 컨텍스트 목표
→ 회의론 근거: Mamba·RWKV·DeepSeek Sparse Attention 등 이전 서브쿼드라틱 아키텍처가 프론티어 스케일에서 반복적으로 트랜스포머에 밀림


1. 왜 2차 복잡도가 문제인가

어텐션 비용이 컨텍스트 길이와 함께 2차 함수로 증가하기 때문에 입력을 두 배로 늘리면 연산이 4배가 된다는 것이 2017년 이후 모든 트랜스포머 기반 모델을 형성해온 제약이다.

# 트랜스포머 어텐션 복잡도 문제

표준 Self-Attention (Dense Attention)
  모든 토큰이 모든 토큰에 대해 연관성 점수 계산
  → n개 토큰 = n² 번 계산

  컨텍스트 128K  → 연산량 1×
  컨텍스트 256K  → 연산량 4×
  컨텍스트 512K  → 연산량 16×
  컨텍스트 1M    → 연산량 64×
  컨텍스트 12M   → 연산량 9,216×  ← 사실상 불가능

현실적 결과
→ 대부분 프론티어 모델의 실질적 상한: 128K~1M
→ 1M 넘어가면 품질 급격히 저하 (MRCR v2: Claude Opus 4.7 32.2%)
→ 그래서 RAG, 청킹, 벡터DB, 에이전틱 검색이 필요

# SubQ의 주장
SSA(Subquadratic Sparse Attention) = 선형 복잡도 O(n)
  컨텍스트 2배 → 연산량 2배만 증가
  12M 토큰이 현실적으로 가능해짐

2. SSA 아키텍처 — 어떻게 작동하나

SSA는 콘텐츠 기반 토큰 선택으로 표준 어텐션을 대체한다. 각 쿼리 토큰에 대해 모델이 시퀀스에서 실제로 중요한 소수의 위치를 선택하고, 그 부분에 대해서만 정확한 어텐션을 계산한다. 컴퓨팅이 제곱이 아닌 선형으로 컨텍스트 길이에 따라 증가한다.

# Dense Attention vs SSA 비교

Dense Attention (표준 트랜스포머)
  토큰 A → [B, C, D, E, F, G, H, ...모든 토큰] 전부 비교
  → 대부분의 비교 결과가 0에 가까운 관련성 (낭비)

SSA (Subquadratic Sparse Attention)
  토큰 A → [콘텐츠 기반으로 가장 관련 있는 k개 토큰만 선택]
            → 선택된 k개에 대해서만 정확한 어텐션 계산

  핵심 아이디어:
  "토큰 5가 토큰 4,000,000과 관련 없다는 걸 확인하는 데
   거대한 연산을 쓰지 말자 — 처음부터 선택 안 하면 됨"
# SSA 개념 의사코드

def dense_attention(queries, keys, values):
    # n × n 연산 → O(n²)
    scores = queries @ keys.T  # 모든 토큰 쌍 비교
    weights = softmax(scores)
    return weights @ values

def ssa_attention(queries, keys, values, k=64):
    # 각 쿼리당 k개만 선택 → O(n × k) ≈ O(n)
    results = []
    for q in queries:
        # 콘텐츠 기반으로 가장 관련 있는 k개 위치 선택
        top_k_indices = select_relevant_keys(q, keys, k)
        selected_keys = keys[top_k_indices]
        selected_values = values[top_k_indices]

        # 선택된 k개에 대해서만 정확한 어텐션
        score = q @ selected_keys.T
        weight = softmax(score)
        results.append(weight @ selected_values)

    return stack(results)
    # k가 n에 비해 작으면 전체 복잡도 O(n) ≈ 선형

3. 벤치마크 — 주장 vs 현실

# SubQ 주장 수치 (전부 벤더 자체 측정)

효율성
→ FlashAttention 대비 52배 빠름 (1M 토큰, B200 GPU)
→ 12M 토큰에서 프론티어 모델 대비 연산량 1,000배 감소

비용
→ 프론티어 모델 대비 약 1/5 비용
→ RULER 128K 기준: SubQ $8 vs Claude Opus $2,600

코딩 성능
→ SWE-bench Verified: 81.8%
   (Claude Opus 4.7: 87.6% / GPT-5.5: 88.7%)
→ "Opus 수준 성능, Opus 비용의 5%"

장문 검색
→ RULER 128K: 95% (GPT-5.5: 74%, Claude Opus 4.7: 낮음)
→ MRCR v2: 상위권 주장 (수치 미공개)
# 독립 검증 현황 (2026년 5월 27일 기준)

✅ 검증된 것
→ 회사 실존, 창업자 신원, $29M 펀딩
→ API 접근 (얼리 액세스 대기), SubQ Code/Search 제품
→ Meta/Google/Oxford/Cambridge 출신 팀 구성

❌ 미검증
→ 52배 속도 향상 — 독립 재현 없음
→ 1,200만 토큰 품질 — 공개 테스트 없음
→ 비용 1/5 주장 — 조건 불명확
→ 기술 논문 미발행 (forthcoming 예고만)
→ 오픈 웨이트 없음 — 아키텍처 검증 불가

4. 실제 사용 시나리오 — 뭐가 달라지나

# SubQ 주장이 현실이 된다면 바뀌는 것

1. RAG 파이프라인 대폭 단순화
   현재: 문서 청킹 → 임베딩 → 벡터 DB → 검색 → 컨텍스트 주입
   SubQ: 전체 문서를 컨텍스트에 넣고 그냥 질문

   실제 규모:
   1,200만 토큰 ≈ 책 120권 ≈ 대형 코드베이스 전체 ≈ 법률 사건 기록 전체

2. 에이전트 메모리 구조 변화
   현재: 세션 간 요약·압축 필수
   SubQ: 전체 대화 히스토리를 컨텍스트에 유지

3. 코드베이스 분석
   현재: 파일 단위 청킹, 관련 파일만 선택
   SubQ: 리포지토리 전체를 한 번에 → 전역 의존성 파악 용이

# 아직 SubQ보다 기존 방식이 나은 경우
→ 짧은 컨텍스트 고품질 추론 (Opus 4.7이 SWE-bench Pro 우세)
→ 미국 데이터 주권 요건 (Subquadratic = 스타트업, 컴플라이언스 미비)
→ 프로덕션 안정성 요구 (얼리 액세스 단계)

 


5. 회의론 — 왜 조심해야 하나

비슷한 전례가 있다. Magic.dev는 2024년 8월 1,000배 효율 향상을 주장하며 1억 토큰 컨텍스트 모델을 발표하고 $5억 이상을 모금했다. 2026년 초 현재 LTM-2-mini가 Magic 외부에서 사용된다는 공개적 증거가 없다.

# 이전 서브쿼드라틱 아키텍처의 역사

2023 Mamba (SSM 기반)
  → "트랜스포머를 대체할 것" 주장
  → 소규모에서 유망했으나 프론티어 스케일에서 트랜스포머에 밀림
  → 현재 하이브리드(Mamba + Attention) 형태로만 생존

2023 RWKV
  → 선형 어텐션으로 RNN과 트랜스포머 결합
  → 커뮤니티 채택은 있으나 프론티어 성능 미달

2024 Magic.dev
  → 1억 토큰 컨텍스트, $500M 조달
  → 2026년 기준 외부 사용 사례 없음

2026 SubQ
  → ??? (현재 판단 불가)

# SSA의 이론적 취약점
→ "관련 있는 k개 선택" 자체가 정확해야 함
   → 잘못 선택하면 중요한 정보 누락
→ k가 실제로 n에 비해 작아야 선형 주장 성립
   → 복잡한 추론에서 k가 커지면 이점 상쇄
→ 프론티어 모델 수준 품질 유지하면서 희소 어텐션 유지가 핵심 과제

6. 개발자가 지금 해야 할 것

# SubQ 현재 접근 방법

얼리 액세스 신청
→ subq.ai 에서 대기 목록 등록
→ API: 1M 토큰 컨텍스트 (OpenAI 호환 형식)
→ SubQ Code: Cursor 연동, 전체 코드베이스 로딩
→ SubQ Search: 딥 리서치 도구

테스트 시 확인해야 할 것
→ 실제 긴 문서에서 검색 정확도 (RULER 외 자체 테스트)
→ 64K 이상에서 품질 저하 여부
→ 실제 API 레이턴시 (52배 속도 주장 검증)
→ 코딩 태스크 실사용 성능

# 현재 권장 포지션
→ 장문 컨텍스트 워크로드 있는 팀: 얼리 액세스 신청 후 자체 평가
→ 즉시 프로덕션 투입: 독립 검증 나올 때까지 대기
→ 연구·학습 목적: 기술 보고서 발행 대기 (아키텍처 이해에 가치 있음)

✅ 결론

✅ SSA 아키텍처 아이디어 자체는 수학적으로 타당 — 희소 어텐션으로 선형 복잡도 달성 가능
✅ 팀 구성·펀딩·출시 모두 실존 — 마케팅만의 공허한 주장은 아님
✅ 주장이 10%만 맞아도 장문 컨텍스트 비용 현실이 달라짐
✅ 경쟁 압박 효과 — SubQ 등장으로 Anthropic·OpenAI의 서브쿼드라틱 연구 가속화

❌ 모든 수치가 벤더 자체 측정 — 독립 검증 없음
❌ 기술 논문·오픈 웨이트 없음 — 아키텍처 검증 불가
❌ Mamba·Magic.dev 같은 전례 — "혁명적 효율"은 스케일업에서 자주 실망 안겨줌
❌ 프로덕션 API는 여전히 1M 토큰 — 1,200만은 리서치 모델 한정

 


 

반응형