본문 바로가기

AI Development

AI가 코드 작성 속도 올려도 배포는 안 빨라진다

반응형

팀에 Claude Code, Copilot 도입하면 이런 일이 생겨요.

1~4주차: 개발자들 엄청 빨라진 것 같음. PR 2배로 올라옴
2개월: PR 리뷰 큐가 쌓이기 시작. 시니어들 하루종일 리뷰만 함
3개월: 버그 리포트 증가. CI는 통과했는데 프로덕션에서 터짐
4개월: 리드 타임이 AI 도입 전보다 길어짐

Faros AI가 10,000명 이상 개발자, 1,255팀을 분석한 결과예요.


숫자가 뭐라고 하나

AI 도입 후 팀 지표:

PR 머지 수:        +98% (2배 증가)  ✅ 좋아 보임
PR 크기:          +154% (1.5배 더 큼) ⚠️
PR 리뷰 시간:      +91% (거의 2배) 🚨
버그 발생률:       +9% per developer 🚨
DORA 메트릭:      변화 없음 🤔

회사 전체 생산성:   +10% (겨우)

개발자 개인은 빨라졌어요. 근데 팀 전체는 그대로예요.

왜냐? 병목이 코드 작성에서 코드 리뷰로 이동했기 때문이에요.


Amdahl의 법칙 — 제일 느린 부분이 전체 속도를 결정한다

소프트웨어 개발 파이프라인:

코드 작성 → PR 리뷰 → 테스트 → 배포

AI 도입 전:
코드 작성 [=====] 2시간
PR 리뷰   [===]   1시간
테스트     [==]    30분
배포       [=]     15분
총 리드타임: 3시간 45분

AI 도입 후:
코드 작성 [=]     30분 (4배 빨라짐!) ✅
PR 리뷰   [=========] 2시간 (코드 2배 많아짐) 🚨
테스트     [===]    1시간 (커버리지 더 필요) 🚨
배포       [=]     15분
총 리드타임: 3시간 45분 (똑같음)

공장 비유로 설명하면 이래요.

"조립 라인에서 한 기계만 빠르게 해봤자, 다음 기계가 느리면 물건만 쌓인다."

코드 짜는 속도만 올린 거예요. 나머지는 그대로예요.


실제로 어떻게 무너지나

1단계: PR 폭발

기존: 개발자 1명당 하루 PR 2~3개
AI 후: 개발자 1명당 하루 PR 4~6개 (+98%)

리뷰어 1명이 하루에 검토할 수 있는 PR: 여전히 5~8개
→ 큐 쌓이기 시작

2단계: PR 크기 폭발

기존: PR 평균 200줄
AI 후: PR 평균 510줄 (+154%)

리뷰어 입장:
- 200줄 PR: 30분 리뷰
- 510줄 PR: 90분 리뷰 (3배)
→ 하루에 검토 가능한 PR 수 급감

3단계: 리뷰 품질 하락

리뷰어: "이 PR 510줄인데 어디서부터 봐야 하지?"
→ 대충 훑어보고 승인
→ AI 코드 특성상 "겉보기엔 맞는데 실제론 틀린" 버그 통과
→ 3개월 후 프로덕션에서 터짐

FieldPal.ai CTO가 말했어요.

"AI 코딩 덕에 코드는 빠르게 짜는데, 작동은 하는데 배포 못 하는 PR 백로그가 수천 줄씩 쌓였어요."


왜 AI 코드 리뷰가 더 어려운가

인간이 짠 코드 리뷰:
→ 실수한 곳이 보통 명확함
→ 스타일, 로직 확인
→ "이거 왜 이렇게 했어?"라고 물어볼 수 있음

AI가 짠 코드 리뷰:
→ 겉보기엔 완벽해 보임
→ 실수가 교묘하게 숨어 있음
→ "거의 맞는데 완전히 틀린" 케이스 많음
→ 리뷰어가 실행 맥락까지 전부 검증해야 함

실제로 61%의 개발자가 "AI 코드는 맞아 보이지만 신뢰할 수 없다"고 응답했어요.


Spotify VP의 말

Spotify의 엔지니어링 부문 VP Niklas Gustavsson이 2026년 초 말했어요.

"AI 자체만으로는 별로 바뀌는 게 없어요. 진짜 성과는 시스템 전체를 바라볼 때 나와요."

AI 도구를 도입했지만 결과가 별로였던 팀들의 공통점은 하나예요. 코드 작성만 빠르게 하고, 나머지는 그대로 뒀어요.


병목이 어디로 이동했나

AI 이전 병목:
코드 짜는 시간 (개발자 능력)

AI 이후 병목:
1. PR 리뷰 (시니어 엔지니어의 판단력)
2. 테스트 커버리지 (AI 코드는 엣지 케이스 약함)
3. 아키텍처 일관성 (AI가 전체 맥락을 모름)
4. 운영 복잡도 (AI가 마이크로서비스를 너무 잘 만듦)

특히 운영 복잡도가 함정이에요.

AI: "마이크로서비스 3개로 분리하면 더 깔끔해요" → 만들어드림
6개월 후 운영팀: 모니터링해야 할 서비스 3배 증가
새벽 2시 장애: 어느 서비스에서 났는지 추적에만 1시간

팀에서 실제로 작동한 해결책들

1. PR 크기 제한

# CLAUDE.md 또는 팀 규칙

## PR 크기 제한
- 한 PR에 최대 300줄
- 그 이상이면 논리적으로 분리
- AI가 한번에 큰 PR 만들려 하면 막기

슬래시 커맨드 추가:
/feature → 계획 수립 → 승인 → 구현 → 단계별 PR

2. AI 코드 전용 리뷰 게이트

# .github/workflows/ai-review-gate.yml
- name: AI Code Pre-Review
  uses: coderabbit-ai/review-action@v2
  # AI가 짠 코드를 사람이 보기 전에
  # 자동으로 보안, 패턴 위반 체크
  # → 사람 리뷰어는 로직만 집중

3. 배포 파이프라인 업그레이드

코드 생성이 2배 빨라졌으면
테스트도 2배 빨라야 함

→ 테스트 병렬화
→ 더 빠른 CI/CD
→ Feature Flag로 점진적 배포
→ Canary Deploy로 위험 분산

4. 측정 지표 바꾸기

버려야 할 지표:
- PR 수 (AI가 뻥튀기 가능)
- 코드 라인 수 (의미 없음)
- 커밋 수 (무의미)

써야 할 지표:
- 리드 타임 (기능 요청 → 프로덕션)
- MTTR (장애 복구 시간)
- 변경 실패율
- 실제 배포 빈도

결론

AI 도구 도입 = 코드 짜는 기계 업그레이드예요.

근데 공장 전체를 업그레이드하지 않으면 물건만 쌓여요.

진짜 해야 할 것:

AI 도입 ✅
+ 리뷰 프로세스 업그레이드 ✅
+ 테스트 자동화 강화 ✅
+ 배포 파이프라인 고도화 ✅
+ 성과 측정 방식 변경 ✅
= 진짜 생산성 향상

코드 짜는 속도만 올리고 나머지를 그대로 뒀다면, 지금 팀에서 PR 큐가 쌓이고 있을 가능성이 높아요.


 

반응형