AI Agent

AI 에이전트 배포 의사결정 매트릭스 2026 — SaaS·자체호스팅·하이브리드, 어떤 것을 선택해야 하나

cell-devlog 2026. 5. 28. 14:39
반응형

기업의 79%가 AI 에이전트를 도입했다고 말합니다. 실제로 프로덕션에서 돌아가는 건 17%입니다. 나머지 62%가 파일럿에서 멈추는 가장 큰 이유는 모델 성능이 아닙니다. 배포 방식을 결정하지 못해서입니다.


 

핵심 요약 → 에이전트 배포 선택지: SaaS형·자체호스팅·하이브리드 3가지 + 오픈소스 직접 운영 → 2026년 기준 모든 주요 SaaS 벤더가 하이브리드 모드 지원 → "SaaS vs 자체호스팅" 이분법은 구식 → 12개 판단 축으로 팀과 워크로드에 맞는 배포 모델 결정 가능 → 팀 규모·컴플라이언스·에이전트 루프 빈도·MLOps 역량이 핵심 변수 → 기업 79% 도입 선언 but 실제 프로덕션 17% — 배포 결정이 병목 → 빠른 결론: 5명 이하 팀 → SaaS, MLOps 팀 있음 → 자체호스팅, 규제 데이터 + 유연성 필요 → 하이브리드


왜 배포 모델 선택이 그렇게 어려운가

# 2026년 에이전트 배포 선택지 폭발

SaaS형:
  Salesforce Agentforce 360
  Microsoft Copilot Studio
  SAP Joule
  Cohere Dashboard

자체호스팅:
  Anthropic Managed Agents (Self-Hosted Sandbox)
  LangGraph Platform (= LangSmith Deployment)
  Dify (오픈소스)
  n8n (오픈소스)

하이브리드:
  오케스트레이션 = SaaS / 실행 = 내부망
  (Anthropic MCP Tunnel + Self-Hosted Sandbox)
  (LangGraph Cloud Control Plane + VPC Data Plane)

오픈소스 직접 운영:
  LangGraph, CrewAI, n8n, LangFlow
  → 구축·운영 모두 직접

→ 선택지가 너무 많아서 결정 못 하고 파일럿 상태 유지

12개 판단 축 전체 매트릭스

2026년 기준 핵심 변수는 컴플라이언스 포지션, 팀 규모, 비용 모델의 조합입니다. 모든 주요 SaaS 벤더가 하이브리드 모드를 지원하고 자체호스팅 플랫폼도 관리형 런타임 옵션을 추가했기 때문에 단순 이분법은 더 이상 유효하지 않습니다.

# 12개 판단 축 스코어카드 (1~5점, 높을수록 유리)

판단 축                SaaS형  자체호스팅  하이브리드
─────────────────────────────────────────────────────
1. 초기 셋업 속도        5        2          3
2. 운영 부담             5        2          3
3. 데이터 레지던시       2        5          4
4. 컴플라이언스 적합성   3        5          4
5. 모델 선택 자유도      2        5          4
6. 비용 예측 가능성      3        4          3
7. 스케일 상한           3        5          5
8. 벤더 락인 리스크      2        5          3
9. 옵저버빌리티          3        4          4
10. Eval 성숙도          3        4          4
11. HITL 거버넌스        4        3          5
12. MLOps 역량 요구      1        5          3
─────────────────────────────────────────────────────
합산                    36       45          45

→ 합산만 보면 안 됨 — 팀 상황에 따라 가중치가 완전히 달라짐
→ 아래 결정 트리를 통해 실제 선택 도출

12개 축 상세 설명

# 판단 축별 실제 의미

DECISION_AXES = {

    "1. 초기 셋업 속도": {
        "SaaS":      "API 키 발급 → 수 시간 내 에이전트 실행 가능",
        "자체호스팅": "인프라 구성, 보안 검토, CI/CD 파이프라인 → 수 주",
        "결정 기준":  "MVP·PoC 기간 압박이 있으면 SaaS 시작"
    },

    "2. 운영 부담": {
        "SaaS":      "벤더가 업타임·패치·스케일링 담당",
        "자체호스팅": "온콜 로테이션, 보안 패치, 인프라 모니터링 직접 담당",
        "결정 기준":  "MLOps 전담 인력 없으면 자체호스팅은 6개월 후 부채로 전환"
    },

    "3. 데이터 레지던시": {
        "SaaS":      "데이터가 벤더 서버 경유 (대부분 미국·EU 선택 가능)",
        "자체호스팅": "데이터가 우리 인프라에서만 처리",
        "결정 기준":  "금융·의료·공공·국방 → 자체호스팅 or 하이브리드 필수"
    },

    "4. 컴플라이언스 적합성": {
        "SaaS":      "SOC2·ISO27001 인증 있지만 조직 내부 감사 추적 제한",
        "자체호스팅": "감사 로그 완전 통제, 규제 기관에 증빙 용이",
        "결정 기준":  "HIPAA·PCI-DSS·GDPR 데이터 처리 여부 먼저 확인"
    },

    "5. 모델 선택 자유도": {
        "SaaS":      "벤더가 지원하는 모델만 사용 가능",
        "자체호스팅": "오픈소스 포함 모든 모델 선택, 파인튜닝 모델 투입 가능",
        "결정 기준":  "도메인 파인튜닝 모델 또는 특정 모델 지정 요구가 있으면 자체호스팅"
    },

    "6. 비용 예측 가능성": {
        "SaaS":      "토큰·크레딧 기반 → 에이전트 루프 많아질수록 예측 어려움",
        "자체호스팅": "인프라 고정비 + GPU 사용량 → 스케일 크면 유리",
        "결정 기준":  "월 에이전트 실행 수가 안정적이면 자체호스팅 TCO가 유리해지는 구간 존재"
    },

    "7. 스케일 상한": {
        "SaaS":      "레이트 리밋·플랜 상한 존재, 트래픽 스파이크 시 병목",
        "자체호스팅": "인프라 확장으로 사실상 무제한",
        "결정 기준":  "하루 수십만 에이전트 루프 → 자체호스팅 고려"
    },

    "8. 벤더 락인 리스크": {
        "SaaS":      "벤더 가격 인상·서비스 종료 시 마이그레이션 비용 높음",
        "자체호스팅": "오픈 프로토콜 기반이면 이식성 높음",
        "결정 기준":  "전략적 핵심 워크플로라면 멀티벤더·이식성 설계 필요"
    },

    "9. 옵저버빌리티": {
        "SaaS":      "벤더 제공 대시보드, 커스텀 메트릭 제한적",
        "자체호스팅": "OpenTelemetry + 자체 SIEM 완전 통합 가능",
        "결정 기준":  "에이전트 실패 디버깅이 빈번하면 자체 트레이싱 파이프라인 필요"
    },

    "10. Eval 성숙도": {
        "SaaS":      "벤더 평가 툴 내장 (Copilot Studio Agent Evaluations GA)",
        "자체호스팅": "LangSmith, Braintrust, 자체 Eval 셋 완전 통제",
        "결정 기준":  "에이전트 품질 관리가 핵심이라면 자체 Eval 파이프라인이 장기적으로 유리"
    },

    "11. HITL 거버넌스": {
        "SaaS":      "Teams·Outlook 결재 워크플로 기본 제공 (Copilot Studio)",
        "자체호스팅": "HITL 직접 구현 필요, 유연성은 더 높음",
        "결정 기준":  "결재 워크플로가 M365 생태계 안에 있으면 SaaS가 편함"
    },

    "12. MLOps 역량 요구": {
        "SaaS":      "필요 없음 — 비개발자도 에이전트 구성 가능",
        "자체호스팅": "MLOps 엔지니어 1~2명 이상 전담 필요",
        "결정 기준":  "팀에 ML/인프라 전담 인력이 없으면 자체호스팅은 6개월 부채"
    }
}

실전 결정 트리 — 팀 상황별 권장 배포 모델

# 에이전트 배포 결정 트리

Q1. 규제 데이터를 처리하는가?
    (금융·의료·공공·국방 데이터, HIPAA·PCI-DSS·개인정보보호법 적용)

    YES → Q2로
    NO  → Q4로

Q2. 내부 MLOps 전담 팀이 있는가?

    YES → ✅ 자체호스팅 (Anthropic Self-Hosted + MCP Tunnel)
           LangGraph Platform VPC 모드
           완전 데이터 주권 + 모델 자유도

    NO  → ✅ 하이브리드 (오케스트레이션만 SaaS, 실행은 내부)
           예: Copilot Studio + Windows 365 Cloud PC
           예: Anthropic Managed Agents + Self-Hosted Sandbox
           거버넌스는 벤더, 데이터는 내부

Q3. (하이브리드 선택 시) 기존 M365·Power Platform 스택인가?

    YES → ✅ Copilot Studio CUA + Azure Key Vault + Purview
    NO  → ✅ Anthropic Managed Agents + Self-Hosted Sandbox + MCP Tunnel

Q4. (비규제) 팀 규모는?

    5명 이하 스타트업/팀
    → ✅ 완전 SaaS (Claude Managed Agents API or Agentforce)
       빠른 MVP, 운영 부담 없음

    6~50명 (MLOps 없음)
    → ✅ SaaS + 경량 오픈소스 병행
       단순 워크플로: n8n SaaS or Zapier Agents
       복잡 에이전트: Claude API 직접 호출

    50명 이상 (MLOps 팀 있음)
    → Q5로

Q5. 에이전트 루프 실행 빈도?

    하루 1만 회 이상 → ✅ 자체호스팅 고려
    (SaaS 토큰 비용 > 인프라 고정비 분기점 도달)

    하루 1만 회 미만 → ✅ SaaS or 하이브리드 유지
    (인프라 고정비 > SaaS 변동비 구간)

주요 플랫폼별 배포 모델 포지션

# 2026년 주요 에이전트 플랫폼 분류

PLATFORMS = {

    # ── SaaS형 ──
    "Salesforce Agentforce 360": {
        "type": "SaaS",
        "강점": "CRM 데이터 네이티브 통합, 비개발자 배포",
        "약점": "Salesforce 생태계 밖은 제한적",
        "적합": "영업·CS 자동화, Salesforce 이미 쓰는 팀"
    },
    "Microsoft Copilot Studio": {
        "type": "SaaS / 하이브리드",
        "강점": "M365 통합, Computer Use GA, Purview 감사",
        "약점": "크레딧 과금 복잡, Windows 전용 CUA",
        "적합": "M365 기업, 레거시 Windows 앱 자동화"
    },

    # ── 하이브리드 ──
    "Anthropic Managed Agents + Self-Hosted": {
        "type": "하이브리드",
        "강점": "오케스트레이션 관리형 + 실행 내부화 가능",
        "약점": "리서치 프리뷰, SLA 미적용",
        "적합": "규제 데이터 + Claude 성능 필요한 팀"
    },
    "LangGraph Platform (LangSmith Deployment)": {
        "type": "하이브리드",
        "강점": "Cloud Control Plane + VPC Data Plane 분리",
        "약점": "Python 중심, 셋업 러닝커브",
        "적합": "Python 팀, 복잡한 멀티에이전트 워크플로"
    },

    # ── 자체호스팅 / 오픈소스 ──
    "n8n (self-hosted)": {
        "type": "오픈소스 자체호스팅",
        "강점": "Docker 단일 배포, MIT 라이선스, 400+ 통합",
        "약점": "복잡한 에이전트 로직은 코드 작성 필요",
        "적합": "중소팀, 비용 최우선, 간단한 워크플로 자동화"
    },
    "Dify (self-hosted)": {
        "type": "오픈소스 자체호스팅",
        "강점": "UI 기반 에이전트 구성, RAG 내장",
        "약점": "대규모 프로덕션 성숙도 검증 중",
        "적합": "비개발자 포함 팀, 빠른 내부 도구 구축"
    }
}

비용 분기점 계산 — SaaS가 자체호스팅보다 비싸지는 시점

# SaaS vs 자체호스팅 월별 TCO 비교 (개념 모델)

def calculate_breakeven(
    daily_agent_loops: int,
    avg_tokens_per_loop: int = 3000,  # 입력 2000 + 출력 1000
    saas_input_price: float = 3.0,    # Claude Sonnet 4.6: $3/1M input
    saas_output_price: float = 15.0,  # $15/1M output
    self_hosted_monthly_fixed: float = 2000  # GPU 서버 + 운영비
) -> dict:

    monthly_loops = daily_agent_loops * 30
    monthly_input_tokens = monthly_loops * 2000  # 입력 토큰
    monthly_output_tokens = monthly_loops * 1000 # 출력 토큰

    saas_monthly = (
        monthly_input_tokens / 1_000_000 * saas_input_price +
        monthly_output_tokens / 1_000_000 * saas_output_price
    )

    # 자체호스팅: 고정비 + 전력/냉각 변동비 (단순화)
    self_hosted_monthly = self_hosted_monthly_fixed

    return {
        "daily_loops": daily_agent_loops,
        "saas_monthly": round(saas_monthly, 0),
        "self_hosted_monthly": round(self_hosted_monthly, 0),
        "recommendation": "자체호스팅" if self_hosted_monthly < saas_monthly else "SaaS"
    }

# 시뮬레이션
scenarios = [
    calculate_breakeven(100),    # {'daily': 100, 'saas': $270, 'self': $2000 → SaaS}
    calculate_breakeven(1000),   # {'daily': 1000, 'saas': $2700, 'self': $2000 → 비슷}
    calculate_breakeven(3000),   # {'daily': 3000, 'saas': $8100, 'self': $2000 → 자체호스팅}
    calculate_breakeven(10000),  # {'daily': 10000, 'saas': $27000, 'self': $2000 → 자체호스팅}
]

# ⚠ 이 모델은 단순화된 것
# 실제 TCO에 반드시 포함해야 할 것:
# - MLOps 엔지니어 인건비 ($120K~$200K/년)
# - 인프라 운영 시간 (온콜, 패치, 스케일링)
# - 보안 감사 비용
# → MLOps 인력 포함 시 분기점이 일일 루프 1만~3만 회로 올라감

Temporal — 배포 모델과 무관하게 고려해야 하는 레이어

# Durable Execution이 왜 중요한가

# 문제: 에이전트가 장시간 실행 중 서버 재시작되면?
# → 상태 소실 → 에이전트 처음부터 재실행 → 비용 폭발·데이터 손상

# 해결: Temporal (Durable Execution 레이어)
# OpenAI Codex 프로덕션에서 실제로 사용 중

# 에이전트가 3일짜리 HITL 결재를 기다리는 시나리오
from temporalio import workflow, activity
from datetime import timedelta

@workflow.defn
class LongRunningAgentWorkflow:

    @workflow.run
    async def run(self, task: str) -> str:

        # Step 1: 에이전트 초기 분석
        result = await workflow.execute_activity(
            agent_analyze,
            task,
            start_to_close_timeout=timedelta(minutes=30)
        )

        # Step 2: 결재 대기 (서버 재시작해도 상태 유지)
        approval = await workflow.execute_activity(
            wait_for_human_approval,
            result,
            start_to_close_timeout=timedelta(days=3)  # 3일 대기 가능
            # → Temporal이 상태를 영속적으로 저장
            # → 서버 재시작, 배포 무관하게 재개
        )

        # Step 3: 결재 후 에이전트 실행 완료
        return await workflow.execute_activity(
            agent_execute,
            approval,
            start_to_close_timeout=timedelta(hours=2)
        )

# SaaS든 자체호스팅이든 장시간 에이전트 워크플로라면
# Temporal 레이어 추가를 강력 권장

팀 상황별 빠른 결론

# 유형별 최종 권장

[스타트업 / 5명 이하]
  → Claude Managed Agents API 직접 호출
  → n8n SaaS (간단 워크플로)
  → 복잡해지면 LangGraph Cloud 전환

[M365 기업 (규제 없음)]
  → Copilot Studio (로우코드 배포)
  → Computer Use 필요 시 CUA GA 바로 사용

[M365 기업 (규제 있음)]
  → Copilot Studio + Azure Key Vault + Purview
  → 데이터 실행 격리: Windows 365 Cloud PC

[기술팀 있는 스케일업 (비규제)]
  → LangGraph Platform (Python)
  → 또는 Anthropic Managed Agents + Claude API

[기술팀 있는 엔터프라이즈 (규제)]
  → Anthropic Self-Hosted Sandbox + MCP Tunnel
  → LangGraph VPC Data Plane
  → 장시간 워크플로: + Temporal

[비용 최우선 / 오픈소스 가능]
  → n8n self-hosted (Docker, MIT)
  → Dify self-hosted
  → 단, MLOps 인력 없으면 6개월 후 운영 부채 주의

결론

배포 모델 선택 전 반드시 답해야 할 3가지

  • 규제 데이터를 처리하는가? → YES이면 SaaS 단독은 선택지에서 제외
  • 내부 MLOps 전담 인력이 있는가? → NO이면 자체호스팅은 운영 부채로 전환
  • 하루 에이전트 루프 몇 회인가? → 1만 회 초과 시 자체호스팅 TCO 계산 필수

2026년 달라진 핵심

  • SaaS vs 자체호스팅 이분법은 구식 — 모든 주요 벤더가 하이브리드 지원
  • 하이브리드가 규제·성능·비용 세 가지를 동시에 만족시키는 현실적 선택지로 부상
  • Temporal이 SaaS·자체호스팅 무관하게 장시간 에이전트 워크플로의 표준으로 자리잡음

흔한 실수

  • MLOps 인력 비용을 TCO에서 제외하고 "자체호스팅이 더 싸다" 결론 내리기
  • 파일럿은 SaaS로 했는데 프로덕션 데이터가 규제 대상임을 나중에 인지
  • 에이전트 루프 빈도 예측 없이 SaaS 선택 → 트래픽 10배 증가 시 비용 충격

 

반응형