ETCLOVG · V — Verification & Evaluation (검증 · 평가)

에이전트의 산출물이 실제로 원하는 것인가 를 묻는 계층. 벤치마크 grounding, controlled execution, regression feedback, evaluator-as-agent.

상위 노트: 2026-05-24-agent-harness-engineering-survey · MOC: moc-ai-agents-harness

정의 (Scope)

Verification & evaluation.

서베이의 1차 프로젝트 수: 21개. Lifecycle 다음으로 두터운 영역 — 반복 가능한 평가가 없으면 하네스 변경의 영향을 측정할 수 없다.

핵심 관심사 (Key Concerns)

관심사내용
벤치마크SWE-bench, AgentBench, WebArena, GAIA, Terminal Bench
controlled executioneval 자체가 격리·재현 가능한 환경에서 돌아가야 함
evaluator-agent평가자도 에이전트로 — generator-evaluator 분리 (GAN-inspired)
regression test하네스 변경에 대한 시스템 회귀 — unit test가 아니라 system test
objective rubricDesign Quality / Originality / Craft / Functionality 같은 등급화 기준
trace → evalobservability(O)에서 모은 trace로 offline eval 구성

핵심 통찰: 하네스 변경은 시스템 변경

from §5.3 harness coupling problem

프롬프트/도구/샌드박스/검증기/모니터를 따로 보면 좋아 보이는 변경이, 전체 제어 루프와 합쳐졌을 때 롤아웃을 망가뜨릴 수 있다. → 하네스 변경은 system-level eval로 측정해야 한다.

대표 오픈소스 (Awesome-Agent-Harness · Evaluation Harnesses & Benchmarks)

  • SWE-bench / SWE-bench Verified — 코딩 에이전트 표준 벤치
  • Terminal Bench / Terminal Bench 2.0 — LangChain Deep Agents +13.7점 사례 (2026-04-30-improving-deep-agents-with-harness-engineering)
  • AgentBench / WebArena / GAIA — 멀티 도메인 에이전트 벤치
  • Google ADK — build / evaluate / deploy를 한 toolkit에 통합

우리 vault 연결 노트

열린 문제 연결

  • Open Problem 3 (trace-native failure diagnosis) — O 계층의 trace를 V의 1급 feedstock으로
  • Open Problem 5 (adaptive simplification) — verification이 ablation의 기준을 제공해야 simplification이 안전하게 가능

다음 레이어

etclovg-o-observability · → etclovg-g-governance