ETCLOVG · V — Verification & Evaluation (검증 · 평가)
에이전트의 산출물이 실제로 원하는 것인가 를 묻는 계층. 벤치마크 grounding, controlled execution, regression feedback, evaluator-as-agent.
상위 노트: 2026-05-24-agent-harness-engineering-survey · MOC: moc-ai-agents-harness
정의 (Scope)
Verification & evaluation.
서베이의 1차 프로젝트 수: 21개. Lifecycle 다음으로 두터운 영역 — 반복 가능한 평가가 없으면 하네스 변경의 영향을 측정할 수 없다.
핵심 관심사 (Key Concerns)
| 관심사 | 내용 |
|---|---|
| 벤치마크 | SWE-bench, AgentBench, WebArena, GAIA, Terminal Bench |
| controlled execution | eval 자체가 격리·재현 가능한 환경에서 돌아가야 함 |
| evaluator-agent | 평가자도 에이전트로 — generator-evaluator 분리 (GAN-inspired) |
| regression test | 하네스 변경에 대한 시스템 회귀 — unit test가 아니라 system test |
| objective rubric | Design Quality / Originality / Craft / Functionality 같은 등급화 기준 |
| trace → eval | observability(O)에서 모은 trace로 offline eval 구성 |
핵심 통찰: 하네스 변경은 시스템 변경
from §5.3 harness coupling problem
프롬프트/도구/샌드박스/검증기/모니터를 따로 보면 좋아 보이는 변경이, 전체 제어 루프와 합쳐졌을 때 롤아웃을 망가뜨릴 수 있다. → 하네스 변경은 system-level eval로 측정해야 한다.
대표 오픈소스 (Awesome-Agent-Harness · Evaluation Harnesses & Benchmarks)
- SWE-bench / SWE-bench Verified — 코딩 에이전트 표준 벤치
- Terminal Bench / Terminal Bench 2.0 — LangChain Deep Agents +13.7점 사례 (2026-04-30-improving-deep-agents-with-harness-engineering)
- AgentBench / WebArena / GAIA — 멀티 도메인 에이전트 벤치
- Google ADK — build / evaluate / deploy를 한 toolkit에 통합
우리 vault 연결 노트
- 2026-03-29-anthropic-harness-design-experiment — 200 실험: 동일 모델에서 하네스만 다르게 했을 때의 결과 차이가 verification으로만 드러남
- 2026-04-30-improving-deep-agents-with-harness-engineering — Terminal Bench 2.0 Top 5, 자기검증 + 트레이싱으로 +13.7점
- 2026-04-16-agent-skills-realistic-benchmark-gap — 현실 환경에서 스킬 효용이 크게 줄어드는 벤치마크 — benchmark realism 자체의 문제
- 2026-05-25-threads-geun-daeng-harness-benchmark — 오픈소스 하네스 벤치마크 주장
- 2026-03-29-agent-eval-checklist — LangChain: 가장 단순한 eval로 시작해라
열린 문제 연결
- Open Problem 3 (trace-native failure diagnosis) — O 계층의 trace를 V의 1급 feedstock으로
- Open Problem 5 (adaptive simplification) — verification이 ablation의 기준을 제공해야 simplification이 안전하게 가능