Harness (AI Agent Architecture)

에이전트 하네스(agent harness)는 AI 에이전트를 둘러싸는 실행 scaffolding으로, 단일 모델 호출로 해결하기 어려운 장기·복잡 작업을 안정적으로 수행하도록 에이전트의 구조, 분업, 평가, 컨텍스트 관리를 오케스트레이션하는 아키텍처 패턴이다. “모델이 발전해도 흥미로운 하네스 조합의 공간은 줄어들지 않고 이동할 뿐”이라는 Anthropic의 통찰이 이 개념의 핵심 철학이다.

Overview

하네스(harness)는 원래 소프트웨어 테스팅에서 테스트 대상을 감싸는 실행 환경을 의미했다. AI 에이전트 맥락에서는 에이전트가 장시간 복잡한 작업을 수행할 때 발생하는 두 가지 근본적 한계를 극복하기 위한 설계 패턴으로 진화했다.

컨텍스트 소진(Context Anxiety): 컨텍스트 윈도우가 채워질수록 모델의 일관성이 저하되고, 조기 마무리하려는 경향이 나타난다.
자기 평가 편향(Self-Evaluation Bias): 에이전트가 자신의 결과물을 품질과 무관하게 긍정적으로 평가하는 경향이 있다.

Anthropic은 이 문제를 GAN(생성적 적대 신경망)에서 영감받은 생성기 + 평가기 분리 구조로 해결했다. 이것이 현대 에이전트 하네스 설계의 출발점이 되었다.

Key Concepts

1. Generator-Evaluator 분리

하네스의 가장 핵심적인 원칙. 작업을 수행하는 에이전트(Generator)와 결과물을 평가하는 에이전트(Evaluator)를 분리하여 객관적 품질 피드백을 확보한다.

Generator는 스프린트 단위로 기능을 구현
Evaluator는 Playwright MCP 등으로 실제 산출물을 직접 조작하며 채점
주관적 품질(디자인 등)도 구체적 기준(Design Quality, Originality, Craft, Functionality)으로 등급화

참고: 2026-03-24-anthropic-harness-design, 2026-03-26-anthropic-harness-design

2. 컨텍스트 리셋과 구조화된 핸드오프

장기 실행 작업에서 컨텍스트 윈도우 소진을 방지하기 위해 세션을 완전히 비우고(Clean Slate) 새 에이전트로 교체하면서, 구조화된 아티팩트로 상태를 전달한다. 단순한 compaction(요약)과 달리 완전한 초기화를 통해 일관성을 보장한다.

3. Planner-Generator-Evaluator 3-에이전트 구조

Anthropic이 제안한 기본 하네스 아키텍처:

Planner → Generator → Evaluator

에이전트	역할
Planner	1~4문장 프롬프트를 상세 제품 스펙으로 확장
Generator	스펙을 스프린트 단위로 구현, 각 스프린트 후 자체 평가
Evaluator	실제 산출물을 클릭/테스트하며 객관적 기준으로 채점

실험 결과: 솔로 에이전트( $9, 20 분, 작동안함) v s 풀하네스 ($ 200, 6시간, 실제 작동). 모델이 개선되면서 스프린트 구조는 생략 가능해졌지만 Planner의 스펙 확장 역할은 여전히 필수적이다.

참고: 2026-03-29-anthropic-harness-design-experiment

4. 모델 진화에 따른 하네스 재검토

새 모델 출시마다 하네스의 각 구성 요소를 재검토하고 불필요한 부분을 제거하는 것이 원칙이다. Opus 4.6에서는 스프린트 구조를 제거하고 종료 시 단일 패스 QA로 간소화해도 비용 절감 없이 유사한 성능을 유지했다. “가능한 가장 간단한 솔루션을 찾고, 필요할 때만 복잡성을 늘리기”가 핵심 원칙이다.

5. 하네스 빌더와 메타 하네스

에이전트 팀과 스킬을 자동 생성하는 상위 수준의 하네스:

revfactory/harness: “하네스 구성해줘” 한 마디로 도메인에 맞는 에이전트 팀과 스킬을 자동 설계. 6가지 아키텍처 패턴(파이프라인, 팬아웃/팬인, 전문가 풀, 생성-검증, 감독자, 계층적 위임) 지원 → 2026-03-29-harness-claude-code
harness-100: 10개 도메인, 100개 에이전트 팀, 1,808개 마크다운 파일의 프로덕션 레디 하네스 컬렉션 → 2026-03-29-harness-claude-code
Archon: YAML 워크플로우로 AI 코딩 프로세스를 결정론적으로 실행하는 하네스 빌더 (20K★). Git worktree 격리, Loop 노드, Human approval gate 포함 → 2026-04-30-archon-harness-builder

6. 범용 에이전트 하네스 프레임워크

하네스 패턴을 체계화한 오픈소스 구현체들:

OpenHarness (HKUDS): CLI 명령어 oh로 실행되는 범용 에이전트 하네스. 43+ tools, swarm coordination, context compression 제공 (7.1k★). 최근에는 메신저 기반 개인 에이전트 ohmo를 전면에 내세우며 퍼스널 에이전트 제품층까지 확장 → 2026-04-08-openharness-agent-harness, 2026-04-15-openharness-ohmo-agent
DeerFlow 2.0 (ByteDance): 5대 핵심 축(Sub-Agents, Memory, Sandbox, Skills, Multi-Model)을 갖춘 Super Agent 하네스. Claude Code/Codex 네이티브 통합 → 2026-04-05-deer-flow-super-agent-harness
Project Think (Cloudflare): Durable Objects, fibers, facets, execution ladder를 갖춘 edge-native 에이전트 인프라. 하네스를 서버리스 런타임 제품으로 밀어 올림 → 2026-04-16-cloudflare-project-think
OpenAI Agents SDK (next evolution): MCP, skills, AGENTS.md, shell, apply patch, sandbox를 model-native harness로 통합 → 2026-04-16-openai-agents-sdk-next-evolution

7. Function Calling 하네스

에이전트의 도구 호출(function calling) 정확도를 하네스로 개선하는 접근. Wrtn Technologies의 사례에서는 Typia(타입 강제 변환) + AutoBe(자가 치유 루프)를 통해 qwen3-coder-next의 Function Calling 성공률을 6.75%에서 100%로 끌어올렸다. 핵심: “타입은 모호성을 제거하고, 스키마는 부재를 통해 제약한다.”

참고: 2026-04-03-qwen-function-calling-harness

8. 자가개선 루프

하네스와 결합하여 에이전트가 스스로 개선되는 순환 구조:

SKILL.md 자동 개선: 에이전트가 사용하면서 스킬 정의를 자동 정제 → 2026-03-26-autoimprove-cc
Dream Cycle: 야간에 개선 작업을 수행해 아침마다 더 나은 상태로 복귀 → 2026-03-29-dream-cycle
평가기 튜닝 루프: 평가기 로그를 분석해 QA 프롬프트를 지속 개선
스킬 검색/선별 병목: 스킬 라이브러리의 크기보다 retrieval·selection·refinement 품질이 실제 효과를 좌우함 → 2026-04-16-agent-skills-realistic-benchmark-gap

moc-ai-agents-harness — 하네스 & 자가개선 MOC (10개 페이지)
2026-03-24-anthropic-harness-design — Anthropic 하네스 설계 가이드 (원문)
2026-03-26-anthropic-harness-design — 장기 실행 앱 개발 하네스 설계 (심화)
2026-03-29-anthropic-harness-design-experiment — $9 v s$ 200 실험, DAW 빌드 사례
2026-03-29-harness-claude-code — revfactory/harness, 에이전트 팀 자동 생성
2026-04-03-qwen-function-calling-harness — Function Calling 6.75%→100%
2026-04-05-deer-flow-super-agent-harness — ByteDance DeerFlow 2.0 Super Agent
2026-04-08-openharness-agent-harness — HKUDS OpenHarness 범용 에이전트 하네스
2026-04-15-openharness-ohmo-agent — OpenHarness Ohmo 메신저 내장 개인 에이전트
2026-04-30-archon-harness-builder — Archon YAML 워크플로우 하네스 빌더
2026-04-16-cloudflare-project-think — Durable Objects 기반 장기 실행 에이전트 인프라
2026-04-16-openai-agents-sdk-next-evolution — model-native harness와 native sandbox를 통합한 Agents SDK
2026-04-16-agent-skills-realistic-benchmark-gap — 현실 환경에서 스킬 효용이 크게 줄어드는 benchmark 연구
2026-04-30-improving-deep-agents-with-harness-engineering — LangChain 하네스 엔지니어링 — Terminal Bench 2.0 Top 5 (+13.7점)
2026-05-24-agent-harness-engineering-survey — Agent Harness Engineering: A Survey — ETCLOVG 7계층 서베이
2026-05-25-threads-geun-daeng-harness-benchmark — Threads 포스트: 로컬 모델/오픈소스 하네스 벤치마크 주장
2026-05-25-lucas-flatwhite-codex-workflow-packaging — Codex가 반복 작업을 skill/subagent/automation으로 최소 단위화하도록 유도하는 메타프롬프트
2026-04-12-meta-hyperagents — Meta HyperAgents, 에이전트가 스스로 하네스를 설계
2026-04-05-cli-anything-agent-native — CLI-Anything 에이전트 네이티브 변환
2026-03-29-memento-skills — Memento-Skills 자동 스킬 생성
2026-03-29-dream-cycle — Dream Cycle 자가개선
2026-03-26-autoimprove-cc — SKILL.md 자동 개선
moc-ai-agents — AI 에이전트 전체 MOC
moc-ai-agents-orchestration — 에이전트 오케스트레이션 MOC

LLM Wiki

탐색기

Harness (AI Agent Architecture)

Harness (AI Agent Architecture)

Overview

Key Concepts

1. Generator-Evaluator 분리

2. 컨텍스트 리셋과 구조화된 핸드오프

3. Planner-Generator-Evaluator 3-에이전트 구조

4. 모델 진화에 따른 하네스 재검토

5. 하네스 빌더와 메타 하네스

6. 범용 에이전트 하네스 프레임워크

7. Function Calling 하네스

8. 자가개선 루프

그래프 뷰

목차

백링크

LLM Wiki

탐색기

Harness (AI Agent Architecture)

Harness (AI Agent Architecture)

Overview

Key Concepts

1. Generator-Evaluator 분리

2. 컨텍스트 리셋과 구조화된 핸드오프

3. Planner-Generator-Evaluator 3-에이전트 구조

4. 모델 진화에 따른 하네스 재검토

5. 하네스 빌더와 메타 하네스

6. 범용 에이전트 하네스 프레임워크

7. Function Calling 하네스

8. 자가개선 루프

Related Notes

그래프 뷰

목차

백링크