2017년 트랜스포머가 등장한 이후 모든 LLM의 발목을 잡아온 제약이 있다. 컨텍스트가 2배 길어지면 연산량이 4배 늘어나는 2차 복잡도(O(n²)) 문제다. 이게 1M 토큰이 실질적 상한선인 이유고, RAG·청킹·벡터DB가 존재하는 이유다. 마이애미 스타트업 Subquadratic은 이 제약을 SSA(Subquadratic Sparse Attention)로 선형 복잡도로 만들었다고 주장한다. 주장이 맞다면 AI 경제학이 바뀐다. 틀리면 Mamba의 전철을 밟는다. 현재까지 알려진 것을 전부 정리했다.
핵심 요약
→ Subquadratic은 2026년 5월 5일 스텔스 해제, $29M 시드 펀딩 — SSA(Subquadratic Sparse Attention) 기반 최초 상용 LLM SubQ 출시
→ 주요 주장: 1,200만 토큰 컨텍스트 윈도우, FlashAttention 대비 52배 빠름(1M 토큰 기준), 프론티어 모델 대비 1/5 비용
→ RULER 128K 벤치마크: SubQ 95% 정확도 $8 비용 vs Claude Opus 94% 정확도 $2,600 비용 — 약 300배 비용 차이 (벤더 측정)
→ 핵심 경고: 회사가 실존하고 출시·펀딩·창업자 모두 검증됨 — 단 모든 성능 수치는 벤더 자체 측정, 독립 재현 없음, 기술 논문 미발행, 오픈 웨이트 없음
→ 프로덕션 API는 현재 1M 토큰까지만 지원 — 1,200만 토큰은 리서치 모델 한정, 조기 접근 대기 중
→ 로드맵: 2026년 Q4 5,000만 토큰 컨텍스트 목표
→ 회의론 근거: Mamba·RWKV·DeepSeek Sparse Attention 등 이전 서브쿼드라틱 아키텍처가 프론티어 스케일에서 반복적으로 트랜스포머에 밀림
1. 왜 2차 복잡도가 문제인가
어텐션 비용이 컨텍스트 길이와 함께 2차 함수로 증가하기 때문에 입력을 두 배로 늘리면 연산이 4배가 된다는 것이 2017년 이후 모든 트랜스포머 기반 모델을 형성해온 제약이다.
# 트랜스포머 어텐션 복잡도 문제
표준 Self-Attention (Dense Attention)
모든 토큰이 모든 토큰에 대해 연관성 점수 계산
→ n개 토큰 = n² 번 계산
컨텍스트 128K → 연산량 1×
컨텍스트 256K → 연산량 4×
컨텍스트 512K → 연산량 16×
컨텍스트 1M → 연산량 64×
컨텍스트 12M → 연산량 9,216× ← 사실상 불가능
현실적 결과
→ 대부분 프론티어 모델의 실질적 상한: 128K~1M
→ 1M 넘어가면 품질 급격히 저하 (MRCR v2: Claude Opus 4.7 32.2%)
→ 그래서 RAG, 청킹, 벡터DB, 에이전틱 검색이 필요
# SubQ의 주장
SSA(Subquadratic Sparse Attention) = 선형 복잡도 O(n)
컨텍스트 2배 → 연산량 2배만 증가
12M 토큰이 현실적으로 가능해짐
2. SSA 아키텍처 — 어떻게 작동하나
SSA는 콘텐츠 기반 토큰 선택으로 표준 어텐션을 대체한다. 각 쿼리 토큰에 대해 모델이 시퀀스에서 실제로 중요한 소수의 위치를 선택하고, 그 부분에 대해서만 정확한 어텐션을 계산한다. 컴퓨팅이 제곱이 아닌 선형으로 컨텍스트 길이에 따라 증가한다.
# Dense Attention vs SSA 비교
Dense Attention (표준 트랜스포머)
토큰 A → [B, C, D, E, F, G, H, ...모든 토큰] 전부 비교
→ 대부분의 비교 결과가 0에 가까운 관련성 (낭비)
SSA (Subquadratic Sparse Attention)
토큰 A → [콘텐츠 기반으로 가장 관련 있는 k개 토큰만 선택]
→ 선택된 k개에 대해서만 정확한 어텐션 계산
핵심 아이디어:
"토큰 5가 토큰 4,000,000과 관련 없다는 걸 확인하는 데
거대한 연산을 쓰지 말자 — 처음부터 선택 안 하면 됨"
# SSA 개념 의사코드
def dense_attention(queries, keys, values):
# n × n 연산 → O(n²)
scores = queries @ keys.T # 모든 토큰 쌍 비교
weights = softmax(scores)
return weights @ values
def ssa_attention(queries, keys, values, k=64):
# 각 쿼리당 k개만 선택 → O(n × k) ≈ O(n)
results = []
for q in queries:
# 콘텐츠 기반으로 가장 관련 있는 k개 위치 선택
top_k_indices = select_relevant_keys(q, keys, k)
selected_keys = keys[top_k_indices]
selected_values = values[top_k_indices]
# 선택된 k개에 대해서만 정확한 어텐션
score = q @ selected_keys.T
weight = softmax(score)
results.append(weight @ selected_values)
return stack(results)
# k가 n에 비해 작으면 전체 복잡도 O(n) ≈ 선형
3. 벤치마크 — 주장 vs 현실
# SubQ 주장 수치 (전부 벤더 자체 측정)
효율성
→ FlashAttention 대비 52배 빠름 (1M 토큰, B200 GPU)
→ 12M 토큰에서 프론티어 모델 대비 연산량 1,000배 감소
비용
→ 프론티어 모델 대비 약 1/5 비용
→ RULER 128K 기준: SubQ $8 vs Claude Opus $2,600
코딩 성능
→ SWE-bench Verified: 81.8%
(Claude Opus 4.7: 87.6% / GPT-5.5: 88.7%)
→ "Opus 수준 성능, Opus 비용의 5%"
장문 검색
→ RULER 128K: 95% (GPT-5.5: 74%, Claude Opus 4.7: 낮음)
→ MRCR v2: 상위권 주장 (수치 미공개)
# 독립 검증 현황 (2026년 5월 27일 기준)
✅ 검증된 것
→ 회사 실존, 창업자 신원, $29M 펀딩
→ API 접근 (얼리 액세스 대기), SubQ Code/Search 제품
→ Meta/Google/Oxford/Cambridge 출신 팀 구성
❌ 미검증
→ 52배 속도 향상 — 독립 재현 없음
→ 1,200만 토큰 품질 — 공개 테스트 없음
→ 비용 1/5 주장 — 조건 불명확
→ 기술 논문 미발행 (forthcoming 예고만)
→ 오픈 웨이트 없음 — 아키텍처 검증 불가
4. 실제 사용 시나리오 — 뭐가 달라지나
# SubQ 주장이 현실이 된다면 바뀌는 것
1. RAG 파이프라인 대폭 단순화
현재: 문서 청킹 → 임베딩 → 벡터 DB → 검색 → 컨텍스트 주입
SubQ: 전체 문서를 컨텍스트에 넣고 그냥 질문
실제 규모:
1,200만 토큰 ≈ 책 120권 ≈ 대형 코드베이스 전체 ≈ 법률 사건 기록 전체
2. 에이전트 메모리 구조 변화
현재: 세션 간 요약·압축 필수
SubQ: 전체 대화 히스토리를 컨텍스트에 유지
3. 코드베이스 분석
현재: 파일 단위 청킹, 관련 파일만 선택
SubQ: 리포지토리 전체를 한 번에 → 전역 의존성 파악 용이
# 아직 SubQ보다 기존 방식이 나은 경우
→ 짧은 컨텍스트 고품질 추론 (Opus 4.7이 SWE-bench Pro 우세)
→ 미국 데이터 주권 요건 (Subquadratic = 스타트업, 컴플라이언스 미비)
→ 프로덕션 안정성 요구 (얼리 액세스 단계)
5. 회의론 — 왜 조심해야 하나
비슷한 전례가 있다. Magic.dev는 2024년 8월 1,000배 효율 향상을 주장하며 1억 토큰 컨텍스트 모델을 발표하고 $5억 이상을 모금했다. 2026년 초 현재 LTM-2-mini가 Magic 외부에서 사용된다는 공개적 증거가 없다.
# 이전 서브쿼드라틱 아키텍처의 역사
2023 Mamba (SSM 기반)
→ "트랜스포머를 대체할 것" 주장
→ 소규모에서 유망했으나 프론티어 스케일에서 트랜스포머에 밀림
→ 현재 하이브리드(Mamba + Attention) 형태로만 생존
2023 RWKV
→ 선형 어텐션으로 RNN과 트랜스포머 결합
→ 커뮤니티 채택은 있으나 프론티어 성능 미달
2024 Magic.dev
→ 1억 토큰 컨텍스트, $500M 조달
→ 2026년 기준 외부 사용 사례 없음
2026 SubQ
→ ??? (현재 판단 불가)
# SSA의 이론적 취약점
→ "관련 있는 k개 선택" 자체가 정확해야 함
→ 잘못 선택하면 중요한 정보 누락
→ k가 실제로 n에 비해 작아야 선형 주장 성립
→ 복잡한 추론에서 k가 커지면 이점 상쇄
→ 프론티어 모델 수준 품질 유지하면서 희소 어텐션 유지가 핵심 과제
6. 개발자가 지금 해야 할 것
# SubQ 현재 접근 방법
얼리 액세스 신청
→ subq.ai 에서 대기 목록 등록
→ API: 1M 토큰 컨텍스트 (OpenAI 호환 형식)
→ SubQ Code: Cursor 연동, 전체 코드베이스 로딩
→ SubQ Search: 딥 리서치 도구
테스트 시 확인해야 할 것
→ 실제 긴 문서에서 검색 정확도 (RULER 외 자체 테스트)
→ 64K 이상에서 품질 저하 여부
→ 실제 API 레이턴시 (52배 속도 주장 검증)
→ 코딩 태스크 실사용 성능
# 현재 권장 포지션
→ 장문 컨텍스트 워크로드 있는 팀: 얼리 액세스 신청 후 자체 평가
→ 즉시 프로덕션 투입: 독립 검증 나올 때까지 대기
→ 연구·학습 목적: 기술 보고서 발행 대기 (아키텍처 이해에 가치 있음)
✅ 결론
✅ SSA 아키텍처 아이디어 자체는 수학적으로 타당 — 희소 어텐션으로 선형 복잡도 달성 가능
✅ 팀 구성·펀딩·출시 모두 실존 — 마케팅만의 공허한 주장은 아님
✅ 주장이 10%만 맞아도 장문 컨텍스트 비용 현실이 달라짐
✅ 경쟁 압박 효과 — SubQ 등장으로 Anthropic·OpenAI의 서브쿼드라틱 연구 가속화
❌ 모든 수치가 벤더 자체 측정 — 독립 검증 없음
❌ 기술 논문·오픈 웨이트 없음 — 아키텍처 검증 불가
❌ Mamba·Magic.dev 같은 전례 — "혁명적 효율"은 스케일업에서 자주 실망 안겨줌
❌ 프로덕션 API는 여전히 1M 토큰 — 1,200만은 리서치 모델 한정
'LLM' 카테고리의 다른 글
| Speculative Decoding 실전 — Draft 모델 + 검증 모델 조합으로 추론 속도 2~3배 높이기 (0) | 2026.05.29 |
|---|---|
| 중국 오픈소스 코딩 모델 17일 대공세 — GLM-5.1·MiniMax M2.7·Kimi K2.6·DeepSeek V4 완전 비교 (0) | 2026.05.28 |
| 지금 쓰는 모델이 6개월 후엔 레거시다 — H2 2026 모델 로드맵 완전 정리 (0) | 2026.05.26 |
| Opus 4.7의 1/10 비용으로 동급 성능이 가능한가 — Cursor Composer 2.5 실전 분석 (0) | 2026.05.26 |
| WebLLM 완전 가이드 — 서버 없이 브라우저에서 LLM 실행하기 (0) | 2026.05.19 |