본문 바로가기

AI 개발

xAI Grok Build — 터미널 안으로 들어온 또 하나의 코딩 에이전트

반응형

"Claude Code가 1년 넘게 독주하던 터미널 에이전트 시장에 xAI가 뛰어들었습니다."

이번에 다루는 것:
→ Grok Build가 뭔지, 2026년 5월 14일에 무슨 일이 있었는지
→ Claude Code·Codex CLI와 결정적으로 다른 점 3가지
→ 설치 및 기본 사용법 실전
→ Plan Mode · 병렬 서브에이전트 · Headless Mode 실전 예제
→ Claude Code에서 마이그레이션 없이 그대로 쓰는 법
→ 지금 써야 할지, 기다려야 할지

배경 — 왜 지금 Grok Build인가

2026년 5월 14일, xAI가 Grok Build 얼리 베타를 공개하며 Anthropic의 Claude Code, OpenAI의 Codex CLI와 함께 터미널 코딩 에이전트 3파전이 시작됐습니다.

Elon Musk는 4월에 이런 말을 남긴 바 있습니다. "5월까지 Opus 4.6 수준에 근접하고, 6월에는 따라잡거나 능가할 것." 그 예고편이 Grok Build입니다.

xAI의 Grok Build 출시는 Anthropic의 Claude Code나 OpenAI의 Codex보다 1년 이상 늦었습니다. 두 툴 모두 1년 전에 출시되어 엔터프라이즈 코딩 팀의 워크플로우를 이미 장악하고 있는 상황입니다. 늦게 들어온 만큼 차별화 포인트가 명확합니다.

터미널 코딩 에이전트 3파전 현황 (2026년 5월 기준):
→ Claude Code (Anthropic): 1년+ 운영, 가장 많이 쓰임
→ Codex CLI (OpenAI):      GPT-5.5 탑재, ChatGPT 모바일 연동
→ Grok Build (xAI):        2026-05-14 얼리 베타, SuperGrok Heavy 전용

비교 — Grok Build vs Claude Code vs Codex CLI

Grok Build:
→ 모델: Grok 4.3 beta (16-agent Heavy 아키텍처)
→ 컨텍스트: 2M 토큰 (터미널 에이전트 중 최대)
→ 병렬 서브에이전트: 최대 8개 동시 실행
→ Plan Mode: 실행 전 계획 그래프 확인·수정 가능
→ 가격: $99/월 (6개월 프로모션) → $299/월
→ 특징: ACP 지원, Arena Mode 예정, 로컬 퍼스트

Claude Code (Anthropic):
→ 모델: Claude Opus 4.7
→ 시장 점유율 1위, 1년 이상 운영으로 안정성 높음
→ Agent SDK와 Managed Agents로 프로덕션 배포 가능
→ 가격: Max 플랜 포함

Codex CLI (OpenAI):
→ 모델: GPT-5.5 탑재
→ ChatGPT 모바일 연동 (이동 중 코딩 워크플로우 관리)
→ SWE-bench 82.7%로 코딩 벤치마크 상위권

실전 1 — 설치 및 첫 실행

설치는 단 한 줄입니다.

# 설치 (macOS / Linux)
curl -fsSL https://x.ai/cli/install.sh | bash

# Windows는 WSL2 필요 (네이티브 Win32는 로드맵에 있으나 미출시)
wsl --install  # WSL2 먼저 설치 후 위 명령 실행

# SuperGrok Heavy 계정으로 로그인
grok login

# 버전 확인
grok --version

저장소 안에서 실행하면 기존 설정을 자동으로 인식합니다.

# 프로젝트 폴더에서 실행
cd ~/my-project
grok

# 대화형 TUI가 열림
# 마우스 클릭 지원, 풀스크린 터미널 UI
Grok Build가 자동 인식하는 파일들:
→ AGENTS.md      : 프로젝트 규칙 (Claude Code의 CLAUDE.md와 호환)
→ plugins/        : 설치된 플러그인
→ hooks/          : 사전/사후 실행 스크립트
→ skills/         : 저장된 역량 (Anthropic Skills 포맷 호환)
→ MCP 서버 설정  : 기존 DB·API·GitHub MCP 그대로 작동
→ .gitignore 목록: 자동으로 시크릿 전송 제외 (TLS 1.3)

Claude Code를 이미 쓰고 있다면 마이그레이션이 필요 없습니다. xAI는 Anthropic Skills 포맷과의 호환성을 의도적으로 설계했습니다. Claude Code에서 사용하던 Skills를 skills/ 폴더나 ~/.grok/skills/에 복사하면 CLI가 자동으로 로드합니다.


실전 2 — Plan Mode: 실행 전 계획 먼저 검토하기

Claude Code를 쓰다 가장 많이 겪는 문제 중 하나는 에이전트가 방향을 잘못 잡고 파일 12개를 수정한 뒤에야 알아채는 것입니다. Grok Build의 Plan Mode는 이 문제를 해결합니다. 실행 계획을 먼저 제시하고, 단계별로 승인·코멘트·재작성이 가능합니다. 계획이 승인된 후에야 코드가 실행되며, 모든 변경사항은 클린 diff로 표시됩니다.

# Plan Mode 진입 — 복잡한 태스크에 사용 권장
grok --plan "인증 모듈을 JWT에서 OAuth 2.0으로 마이그레이션해줘"

터미널에 이런 식의 계획 그래프가 나타납니다.

[Plan] OAuth 2.0 마이그레이션

Step 1: 현재 JWT 구현 분석
  → auth/jwt.py 파일 읽기
  → 의존성 트리 확인

Step 2: OAuth 2.0 라이브러리 설치
  → requirements.txt 업데이트
  → pip install authlib

Step 3: 인증 플로우 재구현
  → auth/oauth.py 생성
  → 기존 JWT 엔드포인트 래핑

Step 4: 테스트 실행 및 검증
  → pytest auth/ 실행
  → 실패 케이스 수정

[a]pprove  [c]omment  [r]ewrite  [q]uit

각 스텝에 코멘트를 달거나, 특정 스텝을 재작성한 뒤 승인할 수 있습니다.

# 터미널에서 코멘트 추가 예시
c 3  # Step 3에 코멘트
> 기존 JWT 토큰을 가진 유저도 6개월간 병행 지원 필요

# 재작성 예시
r 4  # Step 4 재작성
> pytest 전에 반드시 스테이징 환경에서 통합 테스트 먼저 실행할 것

# 최종 승인
a    # 전체 계획 승인 → 실행 시작
Plan Mode 핵심:
→ 실행 전 계획 그래프 확인 → 잘못된 방향 사전 차단
→ 스텝별 코멘트 → 에이전트가 맥락 반영
→ 승인 후 모든 변경사항은 diff로 표시
→ 복잡한 리팩토링, 마이그레이션, 대규모 기능 추가에 적합
→ 간단한 태스크는 Plan Mode 없이 바로 실행 가능

실전 3 — 병렬 서브에이전트: 대형 태스크 쪼개기

Grok Build의 각 서브에이전트는 코드베이스의 독립된 브랜치(worktree) 안에서 실행됩니다. 동시에 진행되는 작업이 서로를 덮어쓰지 않으며, 최대 8개의 서브에이전트가 병렬로 작동합니다.

# 병렬 분석 태스크 예시
grok "백엔드 성능 이슈를 종합 진단해줘:
      - 느린 API 엔드포인트 프로파일링
      - DB 쿼리 N+1 문제 탐지  
      - 캐시 히트율 분석
      - 배포 설정 검토
      각 항목을 병렬로 분석하고 통합 리포트 작성해줘"

터미널에 서브에이전트 현황이 실시간으로 표시됩니다.

[Main Agent] 태스크를 4개 서브에이전트에 분배 중...

[Agent 1] API 엔드포인트 프로파일링     ████████░░ 78%
[Agent 2] DB 쿼리 N+1 탐지             ██████████ 완료
[Agent 3] 캐시 히트율 분석             ████░░░░░░ 38%
[Agent 4] 배포 설정 검토               ██████░░░░ 61%

사용 토큰: 142,830 / 2,000,000

각 서브에이전트는 별도의 git worktree에서 실행되어 충돌 없이 병렬 작업을 진행합니다.

# worktree 기반 병렬 작업 명시적 지정
grok "아래 세 기능을 각각 별도 브랜치에서 동시에 개발해줘:
      feature/user-profile - 유저 프로필 CRUD
      feature/notification  - 푸시 알림 시스템
      feature/analytics     - 이벤트 트래킹
      각 브랜치 완료 후 PR 초안 작성"
서브에이전트 활용 팁:
→ 독립적으로 분리 가능한 태스크에 적합
→ 각 서브에이전트가 결과만 오케스트레이터에게 반환
→ worktree 통합 → 브랜치 충돌 없이 병렬 코드 작성
→ 최대 8개 동시 실행 (현재 베타 기준)

실전 4 — Headless Mode: CI/CD 파이프라인에 넣기

Headless Mode는 -p 플래그로 실행하며, GitHub Actions나 cron job 같은 자동화 파이프라인 안에서 대화형 UI 없이 에이전트를 실행할 수 있습니다. 변경 로그 생성, 릴리즈 노트 작성, API 문서 업데이트, 문서 PR 자동 오픈까지 자동화가 가능합니다.

# Headless Mode 기본 사용법
grok -p "auth 모듈에 통합 테스트를 추가해줘"

# 출력을 파일로 저장
grok -p "이번 PR의 변경사항을 요약해서 CHANGELOG.md를 업데이트해줘" \
     --output changelog_update.md

# JSON 구조화 출력
grok -p "보안 취약점을 스캔하고 결과를 JSON으로 반환해줘" \
     --format json > security_report.json

GitHub Actions에 붙이는 예시입니다.

# .github/workflows/grok-docs.yml
name: Auto-update docs with Grok Build

on:
  push:
    branches: [main]

jobs:
  update-docs:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      
      - name: Install Grok Build
        run: curl -fsSL https://x.ai/cli/install.sh | bash
        env:
          GROK_API_KEY: ${{ secrets.GROK_API_KEY }}

      - name: Generate release notes
        run: |
          grok -p "이번 커밋의 변경사항을 분석하고 
                   릴리즈 노트를 docs/RELEASE.md에 추가해줘.
                   사용자 관점에서 서술할 것."

      - name: Open PR
        uses: peter-evans/create-pull-request@v6
        with:
          title: "docs: auto-update release notes"
          branch: docs/auto-release-notes
Headless Mode + ACP 조합으로 할 수 있는 것:
→ PR 머지 전 자동 문서 업데이트
→ 배포 후 changelog 자동 생성
→ 야간 보안 스캔 스케줄링
→ 다른 에이전트(Claude Code, 커스텀 봇)와 ACP로 오케스트레이션
→ grok -p + ACP = 에이전트 생태계의 한 노드로 편입 가능

Arena Mode — 아직 미출시, 그러나 주목해야 할 이유

Arena Mode는 Grok Build에서 가장 주목받는 기능입니다. 단일 솔루션을 제시하는 대신 여러 에이전트가 같은 문제에 도전하고, 결과물을 나란히 점수와 함께 랭킹해 개발자에게 보여줍니다. Claude Code나 Codex CLI에는 아직 없는 기능입니다. 2026년 2월 코드 트레이스에서 확인됐고, 출시 예정이지만 현재 얼리 베타에는 포함되지 않았습니다.

이것이 실제로 잘 작동한다면 코드 리뷰 오버헤드를 의미 있게 줄일 수 있습니다. "AI가 짠 코드를 사람이 검토한다"에서 "AI들이 경쟁한 결과를 사람이 최종 선택한다"로 워크플로우가 바뀌기 때문입니다.


마무리 / 결론

✅ 이럴 때 써라
→ 대규모 리팩토링·마이그레이션 — Plan Mode로 사전 검토 필수
→ 여러 기능을 동시에 개발해야 하는 경우 — 병렬 서브에이전트
→ CI/CD 파이프라인에 에이전트를 붙이고 싶을 때 — Headless Mode
→ Claude Code 기반 MCP·Skills 자산을 그대로 유지하면서 다른 모델을 시험하고 싶을 때
→ 2M 토큰 컨텍스트가 필요한 초대형 코드베이스 분석
→ $99 프로모션 기간 중 병렬로 테스트해볼 가치 있음

❌ 이럴 때 쓰지 마라 (지금 당장은)
→ 프로덕션 미션 크리티컬 코드베이스 — 얼리 베타, 버그 있음
→ Windows 네이티브 환경 — WSL2 없으면 지원 안 됨
→ 규제 산업(금융·의료) — 로컬 퍼스트 표방하나 공식 DPA 미발표
→ $300 정가가 부담인 개인 개발자 — 프로모션 6개월 후 재평가
→ 벤치마크 독립 검증이 필요한 경우 — Grok 4.3은 아직 제3자 검증 없음

 

반응형