Harness (AI Agent Architecture)

에이전트 하네스(agent harness)는 AI 에이전트를 둘러싸는 실행 scaffolding으로, 단일 모델 호출로 해결하기 어려운 장기·복잡 작업을 안정적으로 수행하도록 에이전트의 구조, 분업, 평가, 컨텍스트 관리를 오케스트레이션하는 아키텍처 패턴이다. “모델이 발전해도 흥미로운 하네스 조합의 공간은 줄어들지 않고 이동할 뿐”이라는 Anthropic의 통찰이 이 개념의 핵심 철학이다.

Overview

하네스(harness)는 원래 소프트웨어 테스팅에서 테스트 대상을 감싸는 실행 환경을 의미했다. AI 에이전트 맥락에서는 에이전트가 장시간 복잡한 작업을 수행할 때 발생하는 두 가지 근본적 한계를 극복하기 위한 설계 패턴으로 진화했다.

  1. 컨텍스트 소진(Context Anxiety): 컨텍스트 윈도우가 채워질수록 모델의 일관성이 저하되고, 조기 마무리하려는 경향이 나타난다.
  2. 자기 평가 편향(Self-Evaluation Bias): 에이전트가 자신의 결과물을 품질과 무관하게 긍정적으로 평가하는 경향이 있다.

Anthropic은 이 문제를 GAN(생성적 적대 신경망)에서 영감받은 생성기 + 평가기 분리 구조로 해결했다. 이것이 현대 에이전트 하네스 설계의 출발점이 되었다.

Key Concepts

1. Generator-Evaluator 분리

하네스의 가장 핵심적인 원칙. 작업을 수행하는 에이전트(Generator)와 결과물을 평가하는 에이전트(Evaluator)를 분리하여 객관적 품질 피드백을 확보한다.

  • Generator는 스프린트 단위로 기능을 구현
  • Evaluator는 Playwright MCP 등으로 실제 산출물을 직접 조작하며 채점
  • 주관적 품질(디자인 등)도 구체적 기준(Design Quality, Originality, Craft, Functionality)으로 등급화

참고: 2026-03-24-anthropic-harness-design, 2026-03-26-anthropic-harness-design

2. 컨텍스트 리셋과 구조화된 핸드오프

장기 실행 작업에서 컨텍스트 윈도우 소진을 방지하기 위해 세션을 완전히 비우고(Clean Slate) 새 에이전트로 교체하면서, 구조화된 아티팩트로 상태를 전달한다. 단순한 compaction(요약)과 달리 완전한 초기화를 통해 일관성을 보장한다.

3. Planner-Generator-Evaluator 3-에이전트 구조

Anthropic이 제안한 기본 하네스 아키텍처:

Planner → Generator → Evaluator
에이전트역할
Planner1~4문장 프롬프트를 상세 제품 스펙으로 확장
Generator스펙을 스프린트 단위로 구현, 각 스프린트 후 자체 평가
Evaluator실제 산출물을 클릭/테스트하며 객관적 기준으로 채점

실험 결과: 솔로 에이전트(200, 6시간, 실제 작동). 모델이 개선되면서 스프린트 구조는 생략 가능해졌지만 Planner의 스펙 확장 역할은 여전히 필수적이다.

참고: 2026-03-29-anthropic-harness-design-experiment

4. 모델 진화에 따른 하네스 재검토

새 모델 출시마다 하네스의 각 구성 요소를 재검토하고 불필요한 부분을 제거하는 것이 원칙이다. Opus 4.6에서는 스프린트 구조를 제거하고 종료 시 단일 패스 QA로 간소화해도 비용 절감 없이 유사한 성능을 유지했다. “가능한 가장 간단한 솔루션을 찾고, 필요할 때만 복잡성을 늘리기”가 핵심 원칙이다.

5. 하네스 빌더와 메타 하네스

에이전트 팀과 스킬을 자동 생성하는 상위 수준의 하네스:

  • revfactory/harness: “하네스 구성해줘” 한 마디로 도메인에 맞는 에이전트 팀과 스킬을 자동 설계. 6가지 아키텍처 패턴(파이프라인, 팬아웃/팬인, 전문가 풀, 생성-검증, 감독자, 계층적 위임) 지원 → 2026-03-29-harness-claude-code
  • harness-100: 10개 도메인, 100개 에이전트 팀, 1,808개 마크다운 파일의 프로덕션 레디 하네스 컬렉션 → 2026-03-29-harness-claude-code
  • Archon: YAML 워크플로우로 AI 코딩 프로세스를 결정론적으로 실행하는 하네스 빌더 (20K★). Git worktree 격리, Loop 노드, Human approval gate 포함 → 2026-04-30-archon-harness-builder

6. 범용 에이전트 하네스 프레임워크

하네스 패턴을 체계화한 오픈소스 구현체들:

  • OpenHarness (HKUDS): CLI 명령어 oh로 실행되는 범용 에이전트 하네스. 43+ tools, swarm coordination, context compression 제공 (7.1k★). 최근에는 메신저 기반 개인 에이전트 ohmo를 전면에 내세우며 퍼스널 에이전트 제품층까지 확장 → 2026-04-08-openharness-agent-harness, 2026-04-15-openharness-ohmo-agent
  • DeerFlow 2.0 (ByteDance): 5대 핵심 축(Sub-Agents, Memory, Sandbox, Skills, Multi-Model)을 갖춘 Super Agent 하네스. Claude Code/Codex 네이티브 통합 → 2026-04-05-deer-flow-super-agent-harness
  • Project Think (Cloudflare): Durable Objects, fibers, facets, execution ladder를 갖춘 edge-native 에이전트 인프라. 하네스를 서버리스 런타임 제품으로 밀어 올림 → 2026-04-16-cloudflare-project-think
  • OpenAI Agents SDK (next evolution): MCP, skills, AGENTS.md, shell, apply patch, sandbox를 model-native harness로 통합 → 2026-04-16-openai-agents-sdk-next-evolution

7. Function Calling 하네스

에이전트의 도구 호출(function calling) 정확도를 하네스로 개선하는 접근. Wrtn Technologies의 사례에서는 Typia(타입 강제 변환) + AutoBe(자가 치유 루프)를 통해 qwen3-coder-next의 Function Calling 성공률을 6.75%에서 100%로 끌어올렸다. 핵심: “타입은 모호성을 제거하고, 스키마는 부재를 통해 제약한다.”

참고: 2026-04-03-qwen-function-calling-harness

8. 자가개선 루프

하네스와 결합하여 에이전트가 스스로 개선되는 순환 구조:

  • SKILL.md 자동 개선: 에이전트가 사용하면서 스킬 정의를 자동 정제 → 2026-03-26-autoimprove-cc
  • Dream Cycle: 야간에 개선 작업을 수행해 아침마다 더 나은 상태로 복귀 → 2026-03-29-dream-cycle
  • 평가기 튜닝 루프: 평가기 로그를 분석해 QA 프롬프트를 지속 개선
  • 스킬 검색/선별 병목: 스킬 라이브러리의 크기보다 retrieval·selection·refinement 품질이 실제 효과를 좌우함 → 2026-04-16-agent-skills-realistic-benchmark-gap