ETCLOVG · V — Verification & Evaluation (검증 · 평가)

에이전트의 산출물이 실제로 원하는 것인가 를 묻는 계층. 벤치마크 grounding, controlled execution, regression feedback, evaluator-as-agent.

정의 (Scope)

Verification & evaluation.

서베이의 1차 프로젝트 수: 21개. Lifecycle 다음으로 두터운 영역 — 반복 가능한 평가가 없으면 하네스 변경의 영향을 측정할 수 없다.

관심사	내용
벤치마크	SWE-bench, AgentBench, WebArena, GAIA, Terminal Bench
controlled execution	eval 자체가 격리·재현 가능한 환경에서 돌아가야 함
evaluator-agent	평가자도 에이전트로 — generator-evaluator 분리 (GAN-inspired)
regression test	하네스 변경에 대한 시스템 회귀 — unit test가 아니라 system test
objective rubric	Design Quality / Originality / Craft / Functionality 같은 등급화 기준
trace → eval	observability(O)에서 모은 trace로 offline eval 구성

from §5.3 harness coupling problem

프롬프트/도구/샌드박스/검증기/모니터를 따로 보면 좋아 보이는 변경이, 전체 제어 루프와 합쳐졌을 때 롤아웃을 망가뜨릴 수 있다. → 하네스 변경은 system-level eval로 측정해야 한다.

SWE-bench / SWE-bench Verified — 코딩 에이전트 표준 벤치
Terminal Bench / Terminal Bench 2.0 — LangChain Deep Agents +13.7점 사례 (2026-04-30-improving-deep-agents-with-harness-engineering)
AgentBench / WebArena / GAIA — 멀티 도메인 에이전트 벤치
Google ADK — build / evaluate / deploy를 한 toolkit에 통합

2026-03-29-anthropic-harness-design-experiment — $9 v s$ 200 실험: 동일 모델에서 하네스만 다르게 했을 때의 결과 차이가 verification으로만 드러남
2026-04-30-improving-deep-agents-with-harness-engineering — Terminal Bench 2.0 Top 5, 자기검증 + 트레이싱으로 +13.7점
2026-04-16-agent-skills-realistic-benchmark-gap — 현실 환경에서 스킬 효용이 크게 줄어드는 벤치마크 — benchmark realism 자체의 문제
2026-05-25-threads-geun-daeng-harness-benchmark — 오픈소스 하네스 벤치마크 주장
2026-03-29-agent-eval-checklist — LangChain: 가장 단순한 eval로 시작해라

Open Problem 3 (trace-native failure diagnosis) — O 계층의 trace를 V의 1급 feedstock으로
Open Problem 5 (adaptive simplification) — verification이 ablation의 기준을 제공해야 simplification이 안전하게 가능