본문 바로가기

AI Development

AI 에이전트가 실제로 일할 수 있는 이유 — Harness(하네스) 개념 완전 정리

반응형

AI 에이전트를 공부하다 보면 이런 의문이 생깁니다.

"LLM 모델 자체는 그냥 질문에 답하는 거잖아. 그럼 Claude Code나 Cursor는 어떻게 파일도 읽고 API도 호출하는 거지?"

그 답이 바로 **하네스(Harness)**입니다. 이번 글에서는 하네스가 뭔지, Orchestrator와 어떻게 다른지, 실제 제품에서 어떻게 쓰이는지 정리해 드릴게요.


모델 단독으로는 "실험실" 수준이다

LLM 모델 자체는 "질문 받으면 답변 생성"하는 것밖에 못 해요. 실제 업무에 투입하면 세 가지 한계가 바로 드러납니다.

첫째, 기억이 리셋됩니다. 대화가 끝나면 이전 맥락을 전혀 기억하지 못해요. 컨텍스트 창이 꽉 차면 앞 내용이 잘려나가기도 하고요.

둘째, 에러가 나면 그냥 멈춥니다. API 호출이 실패하거나 도구 실행이 안 되면 재시도 로직이 없어서 그냥 중단돼요.

셋째, 파일과 외부 시스템에 직접 접근할 수 없습니다. 파일 읽기, API 호출, DB 조회 같은 건 모델 혼자서는 못 해요.

이 한계들을 해결하는 게 하네스입니다.


하네스란?

하네스는 모델이 실제 현장에서 일할 수 있도록 감싸는 실행 환경 전체예요.

모델이 엔진이라면, 하네스는 핸들, 브레이크, 네비게이션, 안전벨트까지 갖춘 자동차 전체입니다. 엔진만 있으면 어디도 못 가지만, 차가 되면 목적지까지 갈 수 있는 것처럼요.

하네스가 처리하는 것들은 이렇습니다.

컨텍스트 관리 — 컨텍스트 창이 꽉 차면 자동으로 요약·압축해서 기억을 이어줍니다. 모델이 긴 작업을 끊기지 않고 이어나갈 수 있어요.

툴 실행 환경 — 파일 읽기/쓰기, 외부 API 호출, DB 조회 등 모델이 직접 못 하는 작업들을 대신 실행하고 결과를 모델에게 전달합니다.

에러 핸들링 — 실패하면 재시도하고, 복구 로직을 처리해요. 모델이 중간에 멈추지 않도록 보호합니다.

승인 게이트 — DB 삭제처럼 위험한 결정은 사람한테 확인을 받고 진행합니다. Human-in-the-Loop 구현이 여기서 이루어져요.

서브에이전트 조율 — 큰 작업을 쪼개서 여러 에이전트에 분배하고 결과를 취합합니다.

로깅/감사 — 에이전트가 뭘 했는지 전부 기록해요. 나중에 무슨 일이 있었는지 추적할 수 있어야 하거든요.


Harness vs Orchestrator — 뭐가 다른가

둘 다 에이전트 시스템에서 나오는 개념이라 헷갈리기 쉬운데, 역할이 명확하게 달라요.

구분 Orchestrator Harness

정체 AI 에이전트 인프라/시스템
역할 뭘 할지 판단하고 지시 판단 없이 실행 환경 제공
생각함? ✅ LLM이 추론해서 결정 ❌ 그냥 돌아가는 환경
비유 현장 감독 현장 인프라 (크레인, 무전기, 안전망)
위치 하네스 안에서 실행됨 모든 것을 감싸는 바깥 레이어
없으면? 작업 분배/조율 불가 에이전트가 현장에서 일 못 함

한 줄로 정리하면 이렇습니다.

하네스가 무대고, Orchestrator는 무대 위의 감독, 서브에이전트는 배우다.

무대(하네스)가 없으면 감독도 배우도 아무것도 못 합니다.

 

 


하네스는 솔루션인가?

하네스와 솔루션을 같은 개념으로 보는 경우가 있는데, 정확히는 다릅니다.

솔루션은 "특정 문제를 해결하는 완성된 제품/서비스"예요. 하네스는 솔루션이 될 수도 있고, 솔루션 안에 들어가는 구조나 인프라일 수도 있어요.

상황 하네스의 위치

Harness.io 같은 회사 제품 솔루션 맞음
Claude Code 내부 구조 솔루션 아님, 내부 아키텍처
LangChain으로 직접 구축 솔루션 아님, 인프라 설계

하네스는 본질적으로 **"에이전트가 동작하는 실행 구조"**예요. 솔루션은 그 구조를 포장해서 제품으로 팔 때 붙는 말이라고 보면 됩니다.


실제 제품으로 보면

Claude Code, Cursor

모델은 같아도 결과가 다른 이유가 바로 하네스 때문이에요. Claude Code와 Cursor 둘 다 LLM을 쓰지만, 파일 시스템 접근 방식, 컨텍스트 관리 방법, 에러 처리 로직이 다릅니다. 잘 만든 하네스가 제품 품질을 결정하는 거예요.

Harness.io

엔터프라이즈 DevOps용 하네스 플랫폼이에요. CI/CD 파이프라인에 AI 에이전트를 결합해서 배포 자동화, 테스트, 모니터링을 처리합니다.

LangChain, LangGraph

하네스를 직접 만들 수 있게 해주는 프레임워크예요. 툴 실행, 메모리 관리, 에이전트 조율 등 하네스의 구성 요소들을 직접 설계할 수 있어요.


2026 트렌드

업계 컨센서스가 이쪽으로 굳어지고 있어요.

"모델 성능보다 하네스 설계가 제품 품질을 결정한다."

GPT-4, Claude, Gemini 중 어떤 모델을 쓰느냐보다, 그 모델을 어떤 하네스로 감싸느냐가 최종 제품 품질에 더 큰 영향을 준다는 거예요. 모델 자체의 성능 차이는 점점 좁혀지고 있지만, 하네스 설계 역량의 차이는 여전히 크거든요.


마무리

정리하면 이렇습니다.

모델은 엔진이고, 하네스는 그 엔진을 현장에서 쓸 수 있게 만드는 자동차 전체예요. Orchestrator는 하네스 안에서 돌아가는 AI 두뇌고, 하네스는 Orchestrator가 일할 수 있는 무대를 제공합니다.

AI 에이전트 시스템을 설계할 때 모델 선택만큼, 아니 그 이상으로 하네스를 어떻게 설계할지에 집중해야 하는 이유가 여기 있어요. 😄


 

반응형