장기 실행 에이전트 — 종합 정리

Addy Osmani의 “Long-running Agents” 아티클과 GeekNews 한국어 번역을 바탕으로 장기 실행 에이전트 패러다임을 정리. 원문: https://addyo.substack.com/p/long-running-agents


”장기 실행”의 세 가지 의미

  1. Long-horizon reasoning: 많은 의존 단계 계획·실행 능력. METR의 time horizon 지표에서 프론티어 모델이 50% 신뢰도로 완료 가능한 작업 시간이 2019년 이후 7개월마다 두 배 증가 중
  2. Long-running execution: 에이전트 프로세스가 수시간~수일 실행. 주로 harness 설계의 문제
  3. Persistent agency: 단일 작업을 넘어 정체성 유지, 메모리 축적, 사용자 선호 학습. Google Memory Bank가 대표 사례

생산성은 단일 세션 능력보다 복구 가능성, 상태 지속성, 자기 검증에서 결정됨.

모든 장기 실행 에이전트가 부딪히는 세 가지 벽

  1. 유한한 컨텍스트: 1M 토큰 윈도우도 소진됨. 윈도우가 채워지기 전에 context rot(성능 점진적 저하) 발생
  2. 영속 상태 부재: 새 세션은 백지 상태. Anthropic은 “교대 근무 엔지니어가 전혀 인수인계 없이 도착”에 비유
  3. 자기 검증 부재: 모델이 자기 작업 평가 시 긍정 편향. 30% 완성 상태에서 완전한 확신과 함께 결과물 제출

랠프 루프 (Ralph Loop)

  • Geoffrey Huntley와 Ryan Carson이 대중화한 실무자용 장기 실행 패턴. bash 스크립트 하나가 레퍼런스 구현
  • 동작: prd.json(계획) → progress.txt(랩 노트) → AGENTS.md(롤링 룰북) → 에이전트 호출 → 테스트 → 반복
  • 핵심 원리: “에이전트는 기억상실, 파일시스템은 기억 유지”
  • Ryan Carson의 Compound Product는 분석·계획·실행 루프 체이닝 → Anthropic의 planner-generator-evaluator 삼중 구조의 오픈소스 버전
  • 관련: 2026-03-24-anthropic-harness-design, 2026-04-30-improving-deep-agents-with-harness-engineering

Anthropic: Brain/Hands/Session 분리

첫 번째 접근 (하네스 구조)

  • Initializer 에이전트: 환경 구성, feature-list.json, init.sh
  • Coding 에이전트: 기능 단위 진행, 테스트 실행, claude-progress.txt, 커밋
  • 테스트 래칫(Test Ratchet): “테스트 삭제/수정 불가” — 에이전트가 실패 테스트를 삭제해 통과시키는 흔한 실패 방지 | InfoQ 확장 버전: planner, generator, evaluator 삼중 구조로 발전

두 번째 접근 (Brain/Hands/Session 분리) — 2026-04-09-claude-managed-agents

  • Brain: 모델 + 하네스 루프
  • Hands: 도구가 실행되는 샌드박스화된 임시 실행 환경
  • Session: 모든 사고·도구 호출·관찰의 추가 전용(append-only) 이벤트 로그
  • wake(sessionId) 호출로 로그에서 상태 재구성. time-to-first-token p50 ≈60%, p95 ≥90% 감소
  • 세션-이벤트-로그 개념이 가장 과소평가된 부분. 없으면 컨테이너 장애 = 세션 장애

Cursor: Planner, Worker, Judge 구조

  • cursor의 장기 자율 코딩 확장, 세 번의 설계 반복:
    1. 플랫 조정: 동등 지위 에이전트 + 락 → churning(반복만 하고 커밋 안 함)
    2. 낙관적 동시성 제어: 병목 해소 but 조정 문제 미해결
    3. Planner/Worker/Judge: Planner(코드베이스 탐색·작업 생성·재귀 스폰), Worker(집중 실행·독립 작업), Judge(완료 판정·재시작 결정)
  • 핵심 발견: 시스템 동작의 많은 부분이 하네스나 모델보다 프롬프트에 좌우됨
  • GPT 모델이 장시간 자율 작업에서 Opus보다 우수 (Opus는 조기 중단·지름길 선택 경향)
  • 각 에이전트가 격리된 git worktree에서 실행, PR을 통해 병합
  • 최종 구조는 Anthropic과 유사: 역할 분리, 세션 지속, judge 분리

Google: Agent Platform

  • Cloud Next ‘26에서 Vertex AI → Gemini Enterprise Agent Platform 통합
  • Agent Runtime: 수일간 자율 실행, 서브초 콜드스타트, 온디맨드 샌드박스
  • Agent Sessions: 대화·이벤트 이력 영속화, 커스텀 세션 ID → CRM/DB 매핑
  • Agent Memory Bank: GA 출시, 장기 큐레이션 메모리, Payhawk 사례 경비 제출 50%+ 단축
  • 관련: 2026-04-26-enterprise-agent-platform-comparison

프로덕션 장기 실행 에이전트 — 다섯 가지 패턴

  1. Checkpoint-and-resume: 가장 흔한 단일 실패 = 컨텍스트 손실. N 작업 단위마다 체크포인트
  2. Delegated approval (HITL): 에이전트가 추론 체인·작업 메모리·도구 이력 전체 유지한 채 일시정지, 인간 검토 후 서브초 재개
  3. Memory-layered context: Memory Bank(장기) + Memory Profiles(저지연). 위험: memory drift — 비정형 상호작용에서 절차적 지름길 학습
  4. Ambient processing: Pub/Sub·BigQuery 이벤트에 반응. 정책을 Gateway에 정의, 재배포 없이 수백 개 에이전트에 반영
  5. Fleet orchestration: 코디네이터가 전문가 에이전트에게 위임. 각 전문가는 고유 Identity, 정책, Registry 항목

실제 구축 경로

  • 자체 코딩 작업: Claude Code, Antigravity, Cursor, Codex. AGENTS.md 파일럿 체크리스트처럼 관리, Ralph 루프로 완료 재확인, worktree에서 야간 작업 유지
  • 호스팅 제품 구축: Google Agent Platform, Claude Managed Agents, 또는 ADK/Claude Agent SDK/Codex SDK 위에 자체 호스팅
  • 자율 운영 업무: ADK + Memory Bank + Cloud Run + Cloud Scheduler

현재의 실질적 한계

  • 비용: 프론티어 모델 24시간 실행 시 예산·서킷 브레이커·하드캡 필수
  • 보안: brain/hands 분리 패턴으로 공격 표면 축소, 샌드박스에서 크레덴셜 접근 불가 유지
  • Alignment drift: 여러 컨텍스트 윈도우를 거치며 표류. 훅과 judge가 방어
  • 검증: 24시간 자율 활동 감사는 실제 인간 시간 문제. 구조화된 산출물(PR, 커밋, 테스트)이 tractable하게 만듦

향후 방향

  • Google, Anthropic, Cursor가 모델 루프·실행 샌드박스·세션 로그 분리로 수렴
  • 차이는 표면적: Google은 엔터프라이즈 스택, Anthropic은 하네스 호스팅, Cursor는 IDE→클라우드
  • 향후 1년 과제: 조정 — 공유 코드베이스에서 다수 장기 에이전트 운영, 자기 트레이스로 자체 하네스 패치, 작업에 맞춰 도구·컨텍스트 JIT 조립

관련 위키 페이지