Agent Harness Engineering: A Survey
한 줄 요약: LLM 에이전트의 프로덕션 신뢰성은 모델 자체가 아니라 모델을 감싸는 실행 하네스(agent execution harness) 가 좌우한다. 이 서베이는 하네스를 독립적인 시스템 계층으로 정립하고, ETCLOVG 7계층 분류법을 제시하며, 170+ 오픈소스 프로젝트를 이 분류로 매핑한다.
- 저자: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 외 (20명)
- 공개: 2026-05-16 (Year: 2026)
- OpenReview:
eONq7FdiHa· PDF - Project page: picrew.github.io/LLM-Harness
- 카탈로그: Picrew/awesome-agent-harness (207 entries)
- 데이터셋: HuggingFace
ChenLiu1996/Agent-Harness-Engineering - 원문 발췌: raw note
1. 핵심 주장 3가지 (Three Claims)
Claim 1 — 하네스는 독립적인 시스템 계층(independent system layer)
Real-world reliability is shaped by execution controls, feedback loops, governance, evaluation, and operational design, not only by model capability.
실제 신뢰성은 모델 성능만이 아니라 실행 통제(execution controls), 피드백 루프(feedback loops), 거버넌스(governance), 평가(evaluation), 운영 설계(operational design) 가 함께 만든다. 따라서 하네스는 “프롬프트 주변에 두르는 보조 코드”가 아니라 그 자체로 엔지니어링 대상이 되는 독립 계층으로 다뤄야 한다.
Claim 2 — ETCLOVG가 프로덕션 관심사(production concerns) 를 분리한다
기존 6-component 프레임워크들이 뒤섞었던 관심사를 7계층으로 분리하면서, 특히 관측 가능성(Observability)과 거버넌스(Governance)를 독립 계층으로 승격한 것이 핵심 기여다.
| 코드 | Layer | 한국어 의미 |
|---|---|---|
| E | Execution environment | 실행 환경 / 샌드박스 |
| T | Tool interface & protocol | 도구 인터페이스 · 프로토콜 |
| C | Context & memory management | 컨텍스트 · 메모리 관리 |
| L | Lifecycle & orchestration | 라이프사이클 · 오케스트레이션 |
| O | Observability & operations | 관측 가능성 · 운영 |
| V | Verification & evaluation | 검증 · 평가 |
| G | Governance & security | 거버넌스 · 보안 |
각 계층의 상세는 별도 노트로 분리했다:
- etclovg-e-execution — 실행 환경
- etclovg-t-tooling — 도구 인터페이스
- etclovg-c-context — 컨텍스트 · 메모리
- etclovg-l-lifecycle — 라이프사이클 · 오케스트레이션
- etclovg-o-observability — 관측 가능성
- etclovg-v-verification — 검증 · 평가
- etclovg-g-governance — 거버넌스 · 보안
Claim 3 — 광범위한 생태계 지도(ecosystem map) 가 격차를 드러낸다
170+ 오픈소스 프로젝트를 ETCLOVG에 매핑한 결과, 샌드박스, MCP/A2A 같은 프로토콜, 메모리 시스템, 오케스트레이터, 관측 플랫폼, 벤치마크, 거버넌스 스택 전반의 채택 패턴과 빈 구멍이 드러난다. 카탈로그는 살아있는 자료(living catalog)로 Picrew/awesome-agent-harness에서 PR로 갱신된다.
2. 엔지니어링의 세 단계 (Three Engineering Phases)
| 기간 | 단계 | 주된 레버 (primary lever) |
|---|---|---|
| 2022–2024 | Prompt engineering | 단일 모델 호출에 최적화된 입력 텍스트 — instructions / few-shot / reasoning template |
| 2025 | Context engineering | ”각 단계에서 모델이 무엇을 보아야 하는가?” — retrieval, compaction, tool-result ranking, context-window saturation |
| 2026– | Harness engineering | 모델이 장기 작업을 시도할 만큼 강해지면서, 실행 환경 · 도구 · 컨텍스트 · 라이프사이클 · 관측 · 검증 · 거버넌스 전체 인프라 래퍼 로 초점 확장 |
세 단계는 시간·개념적으로 겹치며, “무엇을 엔지니어링 대상으로 골랐는가”의 이동을 묘사한다. 단순한 단계적 교체가 아니다.
3. 에이전트 하네스 시스템의 타임라인 (요약)
- 2022–2023 — ReAct era:
while루프 + 프롬프트 템플릿 + 작은 tool dispatch table로 단일 모델 루프를 감싸는 형태. - AutoGPT / BabyAGI: 실행 폭주(execution runaway), 컨텍스트 폭발(context blowout), 상태 손실(state loss), 부작용 미관측(unmonitored side effects) 같은 실패를 프롬프트 문제가 아닌 인프라 문제로 노출시킴.
- 2023–2024 — 도구 · 멀티에이전트:
- 학습된 도구 사용 — Gorilla, ToolLLM, Toolformer
- 역할 기반 조직 — CAMEL, ChatDev, MetaGPT, Mixture-of-Agents
- 첫 벤치마크 — SWE-bench, AgentBench, WebArena, GAIA
- 프로토콜 표준화 시작 — MCP, A2A
- 2025–2026: “harness engineering” 이 학문/실무의 별도 분과로 명명됨. 하네스만 바꿨을 때의 벤치마크 개선 결과들 등장(예: LangChain Deep Agents +13.7점) → 2026-04-30-improving-deep-agents-with-harness-engineering
4. ETCLOVG 매핑 — 현재 스냅샷 통계
| Layer | 범위 | 1차(primary) 프로젝트 수 |
|---|---|---|
| E | Execution environment & sandbox | 20 |
| T | Tool interface & protocol | 12 |
| C | Context & memory management | 9 |
| L | Lifecycle & orchestration | 47 🥇 |
| O | Observability & operations | 15 |
| V | Verification & evaluation | 21 |
| G | Governance & security | 14 |
코딩 방식은 multi-label: 가장 중심적인 메커니즘이 primary layer, 공개 문서가 독립 능력을 보일 때만 secondary layer를 부여한다.
해석:
- 밀도 높음: Execution, Tooling, Lifecycle, Verification — 코딩/웹/터미널/컴퓨터 사용 에이전트는 실행 가능한 환경, 도구 계약, 제어 루프, 반복 가능한 평가가 table-stakes다.
- 숨겨져 있음: Context/Memory는 여러 프로젝트에 등장하지만 독립 컴포넌트보다 큰 프레임워크에 내장되어 출시되는 경우가 많다.
- 얇음: Observability, Governance 는 오픈소스에 적게 노출 → 상용 플랫폼, SDK 내장 기능, 엔지니어링 글에 더 많이 사는 경향. 운영 통제(operational control)는 런타임·벤치마크 인프라보다 늦게 성숙.
5. 교차 레이어 종합 (Cross-Layer Synthesis)
7개 레이어를 합성하면 어느 한 레이어로는 해결되지 않는 시스템 차원의 제약 이 생긴다. 서베이는 세 가지 패턴으로 추린다.
5.1 Cost–quality–speed trilemma (비용·품질·속도 삼중고)
더 강력한 샌드박스, 더 풍부한 컨텍스트, 더 깊은 평가는 품질을 올리지만 토큰·지연시간·인프라 비용 도 같이 올린다. 프로덕션 하네스는 품질을 단일 스칼라로 다룰 수 없고, 어떤 위험에 비싼 통제를 쓸지 / 어떤 점검은 비동기·회귀 스위트로 돌릴지 결정해야 한다.
5.2 Capability–control tradeoff (능력 vs 통제)
더 큰 도구 메뉴, 영속 메모리, 관대한 샌드박스 = 작업 커버리지 확대 = 오정렬·침해 시 폭발 반경(blast radius) 확대. 능력과 통제는 별개가 아니라 하나의 설계 축 위에 있다. 이 축은 다음을 관통한다:
- tool schemas
- context policy
- runtime permissions
- identity
- auditability
- human approval
5.3 Harness coupling problem (하네스 결합 문제)
레이어들이 결합되어 있어 국소 최적화(local optimization)가 깨지기 쉽다. 프롬프트·도구·샌드박스·검증기·모니터를 따로 보면 좋아 보이는 변경이, 전체 제어 루프와 합쳐졌을 때 롤아웃을 망가뜨릴 수 있다. 하네스 변경은 시스템 변경(system change)으로 테스트하라.
부수적 흐름: agent framework → agent platform 즉, “에이전트/도구/메모리/실행 루프”라는 국소 추상화의 패키지에서 여러 실행과 여러 사용자에 걸친 durable workspaces, identity, observability, evaluation, governance, human handoff 까지 다루는 플랫폼으로의 이동.
6. 열린 문제 5가지 (Open Problems)
각 항목은 단일 레이어가 아니라 교차 레이어 종합에서 파생된 질문이다.
- Hardening and scaling execution environments
- 보안 평가 표준 (prompt injection / goal misalignment / compositional amplification)
- 비용 모델 — containers vs microVMs vs OS permission boundaries vs full desktop VMs vs 브라우저 환경 vs learned surrogates
- self-hosted / cloud / hybrid 간 의미 보존 portability
- Reliable state in long-running agents
- 컨텍스트 관리를 state estimation(상태 추정) 문제로 재정의
- 압축 / 검색 / 망각 단계마다 정보 손실의 특성화
- provenance, contradiction handling, explicit staleness markers
- 압축 이력이 아니라 durable artifacts로부터 복원
- Trace-native failure diagnosis
- 트레이스를 단순한 사후 디버깅이 아니라 outcome scores, trajectory quality, failure attribution, regression tests를 산출하는 1급 객체 로 격상
- 광범위한 observability 채택과 드문 offline evaluation 사이의 간극이 시작점
- Standard handoffs across agents, tools, and humans
- 텍스트 요약만이 아니라 intent, constraints, permissions, artifacts, provenance, budget state, risk level, trace history, unresolved decisions 까지 이양
- 안전·복구에 충분히 풍부하면서도 광범위 채택될 만큼 단순한 프로토콜의 설계
- Adaptive simplification as models improve
- 모든 래퍼는 “모델이 혼자 못 한다”는 가정을 인코딩한다
- 모델이 좋아질수록 일부 개입은 핵심으로 남고 일부는 불필요한 비용·지연·운영 부담 으로 전락
- 미래의 하네스는 품질·지연·비용·위험을 공동 제약 으로 두고 스스로를 ablate / optimize / simplify 하는 메커니즘이 필요
5번 항목은 Anthropic의 “가능한 가장 단순한 솔루션부터, 필요할 때만 복잡성을 늘려라” 원칙과 직접 연결된다 → 4-모델-진화에-따른-하네스-재검토
7. 이 서베이가 우리 위키에서 갖는 위치
- 우리가 모은 하네스 관련 노트들의 학술적 골격 역할을 한다.
- harness (entity 페이지)의 8가지 키 개념은 ETCLOVG의 L/T/V/G 위에 살고 있고, moc-ai-agents-harness 의 대부분 항목이 이 분류에 깔끔히 안착한다.
- 우리 vault에서 자주 등장한 사례들:
- E (Execution): Cloudflare Project Think, microsandbox, E2B → 2026-04-16-cloudflare-project-think, etclovg-e-execution
- T (Tooling): MCP, A2A, Function Calling 하네스 → 2026-04-03-qwen-function-calling-harness, etclovg-t-tooling
- C (Context): planning-with-files, Context Mode, Agent Skills → 2026-04-16-agent-skills-realistic-benchmark-gap, etclovg-c-context
- L (Lifecycle): Anthropic Planner–Generator–Evaluator, Archon, deepagents → 2026-04-30-archon-harness-builder, etclovg-l-lifecycle
- O (Observability): trace-native diagnosis → etclovg-o-observability
- V (Verification): 200 실험, Terminal Bench 2.0 → 2026-04-30-improving-deep-agents-with-harness-engineering, etclovg-v-verification
- G (Governance): Claude Code auto mode, managed agents → etclovg-g-governance
8. 학습 가이드 (이 노트만 보고 이해 안 갈 때)
- 5분 컷: 이 페이지 §1–§4만 — 3 claims / 3 phases / ETCLOVG 1줄 정의 / 통계 표.
- 20분 컷: §5 (cross-layer synthesis) + §6 (open problems). 여기서 “왜 하네스 변경은 시스템 변경인가” 가 잡힌다.
- 1시간 컷: 7개 ETCLOVG sub-page를 순회 — 각 페이지의 대표 오픈소스 사례 와 우리 vault 노트 연결을 따라 읽기.
- 하루 컷: PDF 원문 통독 + Awesome-Agent-Harness 카테고리별 상위 3개씩 훑기.
- Q&A 컷: NotebookLM 노트북에 PDF 업로드해서 대화형으로 파고들기 → 2026-05-25-agent-harness-survey-resources 참고.
9. 연결 노트
ETCLOVG sub-pages
- etclovg-e-execution
- etclovg-t-tooling
- etclovg-c-context
- etclovg-l-lifecycle
- etclovg-o-observability
- etclovg-v-verification
- etclovg-g-governance
보조 자료
- 2026-05-25-agent-harness-survey-resources — 관련 자료 (OpenReview, GitHub, awesome-list, HF dataset) 종합 인덱스
같은 흐름의 하네스 노트
- harness — Harness entity page (8 key concepts)
- moc-ai-agents-harness — 하네스 & 자가개선 MOC
- 2026-04-19-harness-is-everything
- 2026-04-19-anatomy-of-agent-harness
- 2026-04-30-improving-deep-agents-with-harness-engineering
- 2026-05-21-agent-harness-landscape
Citation
@misc{li2026agentharness,
title={Agent Harness Engineering: A Survey},
author={Li, Junjie and Xiao, Xi and Zhang, Yunbei and Liu, Chen and
Zhao, Lin and Liao, Xiaoying and Ji, Yingrui and Wang, Janet and
Gu, Jianyang and Ge, Yingqiang and Xu, Weijie and Fang, Xi and
Xu, Xiang and Zhao, Tianchen and Kim, Youngeun and
Wang, Tianyang and Hamm, Jihun and Krishnaswamy, Smita and
Huan, Jun and Reddy, Chandan},
url={https://openreview.net/pdf?id=eONq7FdiHa},
year={2026}
}