ETCLOVG · O — Observability & Operations (관측 가능성 · 운영)

실행을 보는 계층. trace, cost, failure, reliability signal — 그리고 이 신호를 사후 디버깅이 아닌 1급 자산 으로 격상시키는 운영 도구들.

상위 노트: 2026-05-24-agent-harness-engineering-survey · MOC: moc-ai-agents-harness

정의 (Scope)

Observability & operations.

서베이의 1차 프로젝트 수: 15개. ETCLOVG가 기존 6-component framework와 차별화되는 가장 중요한 지점 중 하나 — 관측 가능성을 independent architectural concern으로 승격 시킨다.

서베이의 명시적 관찰: 오픈소스에는 얇게 존재. 상용 플랫폼, SDK 내장, 엔지니어링 글에 더 많이 산다 → 운영 통제는 런타임·벤치마크보다 늦게 성숙.

핵심 관심사 (Key Concerns)

관심사내용
trace 캡처모든 step의 input/output/tool call/error를 구조화된 trace로
cost 추적토큰·달러·시간 — 단위 작업당 비용, 회귀 추적
failure 시그널runtime exception, schema 위반, eval fail, drift detection
reliabilitySLO/SLI, retry 패턴, 재현성
trace-native 진단trace에서 자동으로 outcome score / trajectory quality / failure attribution / regression test 산출

Anthropic / LangChain 관점과의 결합

대표 영역

  • Tracing 백엔드: LangSmith, Phoenix, Helicone, OpenTelemetry agent extensions
  • 운영 대시보드: cost dashboard, eval regression panel
  • Replay/Playback: 트레이스 다시 돌려서 변경 영향 확인 (예: Ouroboros 2026-05-21-ouroboros)

우리 vault 연결 노트

열린 문제 (Open Problem 3)

Trace-native failure diagnosis — 트레이스를 primary object 로:

  • outcome scores
  • trajectory quality
  • failure attribution
  • regression tests

문제의 출발점: 광범위한 observability 채택과 훨씬 드문 offline evaluation 사이의 간극.

→ V (Verification)과 직접 연결 — observability 신호가 offline eval feedstock이 되어야 함.

다음 레이어

etclovg-l-lifecycle · → etclovg-v-verification