AI 개발

Grok Build 0.1 공개 베타: Claude Code·Codex와 코딩 에이전트 3파전 완전분석

cell-devlog 2026. 6. 8. 15:48
반응형

터미널 코딩 에이전트 시장은 지금까지 Claude Code와 Codex CLI 두 플레이어의 싸움이었습니다. 2026년 5월 xAI가 Grok Build를 들고 끼어들었습니다. 에이전트를 하나 쓰는 게 아니라 8개를 동시에 돌리는 방식으로 차별화했습니다.

핵심 요약 → Grok Build CLI: 5월 14일 SuperGrok 구독자 얼리 베타 → 5월 29일 xAI API 공개 베타 → grok-build-0.1: 에이전틱 코딩 전용 모델, 100+ 토큰/초, 컨텍스트 256K → API 가격: 입력 $1/M, 출력 $2/M — 경쟁 대비 최저가 → Plan Mode 기본 활성화: 실행 전 계획 수립 → 사용자 승인 → 실행 3단계 → 병렬 서브에이전트 최대 8개, Git 워크트리 격리 병렬 실행 → MCP(Model Context Protocol) 네이티브 지원 + ACP(Agent Client Protocol) 지원 → SWE-bench Verified 70.8% — Codex CLI 88.7%, Claude Code 87.6% 대비 약 17%p 낮음 → grok-code-fast-1 → grok-build-0.1 자동 라우팅, 5월 15일부터 적용 → SuperGrok Heavy 구독: 초기 6개월 $99/월, 이후 $299~$300/월 → 공개 베타 단계로 프로덕션 안정성 검증 아직 부족


실전 1: Grok Build가 뭔지부터 — CLI 코딩 에이전트 시장 맥락

2025년까지만 해도 AI 코딩 도구는 크게 두 종류였습니다. IDE 플러그인(Copilot, Cursor)과 터미널 에이전트(Claude Code)입니다.

터미널 코딩 에이전트 시장은 Claude Code가 2025년 5월 출시 이후 사실상 단독으로 장악해왔습니다. OpenAI가 Codex CLI로 뒤따랐고, 2026년 5월 xAI가 Grok Build를 출시하면서 3파전이 됐습니다.

Grok Build는 5월 25일 SuperGrok과 X Premium Plus 구독자 대상 얼리 베타로 먼저 출시됐고, 5월 29일 xAI API 공개 베타로 확대됐습니다. API 공개 베타의 의미는 SuperGrok 구독 없이도 xAI API 키만 있으면 grok-build-0.1 모델을 직접 호출할 수 있게 됐다는 것입니다. 개발팀이 Grok Build를 자체 애플리케이션과 파이프라인에 직접 임베드하는 것이 가능해졌습니다.

Grok Build의 포지셔닝은 명확합니다. Claude Code는 깊은 추론 하나에 베팅합니다. 에이전트 하나, 100만 토큰 컨텍스트, 깊은 계획 수립이 핵심입니다. Grok Build는 병렬 처리에 베팅합니다. 최대 8개 에이전트 동시 실행, 3단계 plan/search/build 워크플로우가 핵심입니다.


실전 2: grok-build-0.1 모델 스펙 — 무엇이 다른가

grok-build-0.1은 에이전틱 코딩 작업, 웹 개발, 디버깅, MCP 지원에 특화해서 학습된 코딩 전용 모델입니다. Grok Build CLI를 구동하는 것과 동일한 모델입니다.

모델의 핵심 스펙은 256K 토큰 컨텍스트 윈도우, 100+ 토큰/초 추론 속도입니다. 일부 초기 보도에서 "2M 토큰 컨텍스트"를 언급했지만, 2M 토큰은 Grok 4.3 베이스 모델의 컨텍스트이며 grok-build-0.1의 공식 문서에는 256K로 기재되어 있습니다.

xAI의 모델 마이그레이션 가이드에 따르면 grok-code-fast-1으로 들어오는 요청은 2026년 5월 15일부터 grok-build-0.1으로 자동 라우팅됩니다. 기존에 grok-code-fast-1을 쓰던 개발자라면 별도 조치 없이 이미 grok-build-0.1을 쓰고 있는 셈입니다.

가격

입력 $1/M 토큰, 출력 $2/M 토큰으로 책정됐습니다. 100+ 토큰/초 속도로 서빙됩니다. 경쟁 모델과 비교하면 코딩 특화 모델 중 가장 낮은 API 가격대입니다.


실전 3: Grok Build CLI의 핵심 기능 완전 정리

Plan Mode — 기본 활성화

Grok Build는 Plan Mode가 기본으로 켜져 있습니다. Claude Code에서 가장 많이 요청받았던 기능 중 하나입니다.

작동 방식은 이렇습니다. 태스크를 입력하면 에이전트가 즉시 실행하는 게 아니라 먼저 실행 계획을 수립하고, 사용자에게 계획을 보여주고, 승인을 받은 후에 실행합니다. 리스크가 큰 작업(파일 삭제, 스키마 변경, 대규모 리팩토링)에서 에이전트가 엉뚱한 방향으로 달려가는 것을 사전에 막을 수 있습니다.

병렬 서브에이전트 — 최대 8개 동시 실행

Grok Build의 핵심 차별점은 병렬 에이전트 실행입니다. 최대 8개의 에이전트가 격리된 Git 워크트리에서 동시에 작업하는 plan→search→build 워크플로우를 따릅니다.

Git 워크트리 지원으로 각 서브에이전트가 독립된 브랜치에서 작업하기 때문에, 한 에이전트의 수정이 다른 에이전트의 작업을 중간에 망가뜨리는 위험이 줄어듭니다.

실전에서 이게 유용한 시나리오는 명확합니다.

  • 대규모 버그 조사: 8개 에이전트가 각기 다른 파일·모듈을 동시에 탐색
  • A/B 구현 비교: 동일한 기능을 다른 방식으로 동시에 구현 후 비교
  • 병렬 테스트 작성: 각 에이전트가 서로 다른 모듈의 테스트를 동시 작성
  • 멀티 서비스 마이그레이션: 여러 마이크로서비스를 에이전트별로 분담 처리

MCP + ACP 지원

MCP(Model Context Protocol) 네이티브 지원으로 팀 내부 지식 베이스와 독점 API를 플러그인 방식으로 연결할 수 있습니다.

ACP(Agent Client Protocol) 지원으로 오케스트레이션 플랫폼이 Grok Build를 Claude Code나 Codex CLI와 동일한 방식의 에이전트 프리미티브로 호출할 수 있습니다. 멀티 에이전트 파이프라인에서 Grok Build를 특정 태스크 담당 에이전트로 편입시키는 것이 가능해졌습니다.


실전 4: 3파전 벤치마크 — 숫자 뒤에 있는 진짜 의미

SWE-bench Verified 점수

SWE-bench Verified 기준으로 Codex CLI(GPT-5.5)가 88.7%로 1위, Claude Code(Opus 4.7)가 87.6%로 2위, Grok Build의 코더 모델이 70.8%로 3위입니다.

숫자만 보면 Grok Build가 17%p 뒤처집니다. 그런데 이 수치를 그대로 받아들이기 전에 맥락이 필요합니다.

첫째, 70.8%는 현재 deprecated된 grok-code-fast-1의 점수이며, 현재 프로덕션 CLI를 구동하는 grok-build-0.1의 공식 벤치마크는 아직 xAI가 공개하지 않았습니다.

둘째, SWE-bench는 단일 에이전트 기준 측정입니다. Grok Build의 병렬 에이전트 아키텍처는 같은 태스크에 더 많은 시도를 투입하기 때문에 점수가 높아질 수도, 컨텍스트 분산으로 낮아질 수도 있습니다. 아직 검증되지 않았습니다.

셋째, 벤치마크 점수와 실무 생산성은 다른 차원입니다. 병렬 실행이 실제 팀 워크플로우에서 얼마나 시간을 절약하는지는 출하 후 실제 팀 데이터가 나와야 알 수 있습니다.

도구 모델 SWE-bench 속도 컨텍스트 가격(API)

Claude Code Opus 4.7 87.6% ~95 tok/s 200K+ Pro $20/월 번들
Codex CLI GPT-5.5 88.7% 240+ tok/s 확장 지원 Plus $20/월 번들
Grok Build grok-build-0.1 미공개(전작 70.8%) 100+ tok/s 256K $1/$2 per M

속도 비교

Codex CLI는 240+ 토큰/초로 세 도구 중 가장 빠릅니다. Claude Code 대비 약 2.5배 빠르기 때문에 반복적인 보일러플레이트 생성이나 고속 편집 작업에서 강점이 있습니다. Grok Build는 100+ 토큰/초로 Claude Code와 비슷한 속도입니다.

컨텍스트 윈도우

대규모 모노레포나 여러 파일에 걸친 리팩토링에서는 컨텍스트 윈도우가 핵심입니다. Grok Build의 256K는 Claude Code의 200K+보다 크지만, 이 차이가 실무에서 유의미한지는 태스크 규모에 따라 다릅니다.


실전 5: 요금 구조 — API vs CLI 구독

Grok Build에 접근하는 방법은 두 가지입니다.

xAI API 직접 호출 (공개 베타)

grok-build-0.1은 입력 $1/M, 출력 $2/M 토큰으로 xAI API에서 직접 호출 가능합니다. SuperGrok 구독 없이 API 키만 있으면 됩니다. 자체 애플리케이션에 임베드하거나 에이전트 파이프라인에서 호출하는 용도로 적합합니다.

Grok Build CLI — SuperGrok Heavy 구독

SuperGrok Heavy 구독: 초기 6개월 $99/월, 이후 $299~$300/월입니다. CLI 에이전트 인터페이스 전체와 병렬 서브에이전트 기능을 사용합니다.

$299/월은 Claude Code(Pro $20/월 번들)나 Codex CLI(Plus $20/월 번들) 대비 10~15배 비싼 가격입니다. 벤치마크가 약 17%p 낮은 상태에서 이 가격을 정당화하려면 병렬 서브에이전트 워크플로우가 팀의 실제 병목을 해결하는지 먼저 검증해야 합니다.

6개월 후 $300/월로 급등하는 구조이기 때문에, $99 초기 요금으로 시작했다가 7개월째 청구서를 보고 당황하지 않으려면 ROI 검증을 6개월 안에 끝내야 합니다.


실전 6: 어떤 팀에 맞는가 — 실전 선택 기준

세 도구 중 뭘 써야 할지 상황별로 정리합니다.

Claude Code가 맞는 상황

  • 대규모 엔터프라이즈 코드베이스, 복잡한 멀티파일 버그 수정
  • 프로덕션 안정성이 최우선인 팀
  • 이미 Anthropic Pro/Team 구독 중인 경우 (추가 비용 없음)
  • 독립 테스트 기준 SWE-rebench에서 pass@5 최고 점수, 복잡한 크로스 레포 리팩토링에서 가장 강함

Codex CLI가 맞는 상황

  • 속도가 최우선인 팀 (240+ tok/s)
  • 이미 OpenAI Plus/Team 구독 중인 경우 (추가 비용 없음)
  • 다양한 언어를 혼용하는 폴리글랏 팀, 내장 리뷰 에이전트로 커밋 전 diff 검토 필요한 팀
  • 멀티모달 입력(스크린샷·목업 이미지)을 코딩 워크플로우에 쓰는 팀

Grok Build가 맞는 상황

  • 병렬 탐색이 실제 병목인 대형 모노레포 조사, 회귀 버그 디버깅
  • API 기반 저비용 에이전트 파이프라인 구축 ($1/$2 per M)
  • Grok는 "메인 에이전트 대체"가 아니라 Claude Code나 Codex 옆에 두는 보조 모델로 쓰는 것이 현실적
  • SpaceXAI 생태계(Grok, Colossus 컴퓨트)에 베팅하는 팀

실전 7: 설치 및 빠른 시작

API 직접 호출

# grok-build-0.1 API 호출 예시
curl https://api.x.ai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -d '{
    "model": "grok-build-0.1",
    "input": [
      {
        "role": "user",
        "content": "Fix the authentication bug in src/auth/middleware.py"
      }
    ]
  }'

Grok Build CLI

# SuperGrok Heavy 구독 후 CLI 설치
npm install -g @xai/grok-build

# 레포지토리에서 실행
cd your-project
grok-build

# Plan Mode 확인 후 실행
> Fix the login timeout issue
[Plan] 1. Locate session timeout config
       2. Trace auth middleware
       3. Patch timeout logic
       4. Add regression test
Approve? (y/n): y

ACP로 오케스트레이션 파이프라인에 편입

# LangGraph 등 오케스트레이터에서 Grok Build를 서브에이전트로 호출
from xai import GrokBuildClient

client = GrokBuildClient(api_key=os.environ["XAI_API_KEY"])
result = client.run(
    task="Refactor payment module to async",
    parallel_agents=4,
    worktrees=True
)

정리 → Grok Build 0.1: 에이전틱 코딩 전용 모델, 5월 29일 xAI API 공개 베타, 입력 $1/M 출력 $2/M → Plan Mode 기본 활성화, 병렬 서브에이전트 최대 8개, Git 워크트리 격리 실행 → MCP + ACP 지원으로 기존 에이전트 오케스트레이션 파이프라인에 편입 가능 → SWE-bench 전작 기준 70.8% — Claude Code 87.6%, Codex CLI 88.7% 대비 약 17%p 낮음 → API 가격은 3파전 중 최저가, CLI 구독(SuperGrok Heavy)은 최고가($99~$299/월) → 공개 베타 단계, 프로덕션 안정성 검증 필요

한계 및 리스크 → grok-build-0.1 공식 벤치마크 미공개, 전작 70.8% 기준은 현재 모델과 다를 수 있음 → SuperGrok Heavy $99 → $299/월 6개월 클리프, ROI 검증 기간 촉박 → 256K 컨텍스트, 초대형 코드베이스 전체 파악에는 제한 → 얼리 베타 특성상 Reddit 등에서 자동 갱신·계정 정지 리스크 보고됨

 

반응형