LLM Wiki

❯

❯

장기 실행 에이전트 — 에이전트가 며칠 동안 실행되면 무엇이 달라지는가

장기 실행 에이전트 — 에이전트가 며칠 동안 실행되면 무엇이 달라지는가

2026년 5월 06일9 min read

ai-agents
long-running
harness
orchestration
context-management
agent-platform

장기 실행 에이전트 — 종합 정리

Addy Osmani의 “Long-running Agents” 아티클과 GeekNews 한국어 번역을 바탕으로 장기 실행 에이전트 패러다임을 정리. 원문: https://addyo.substack.com/p/long-running-agents

”장기 실행”의 세 가지 의미

Long-horizon reasoning: 많은 의존 단계 계획·실행 능력. METR의 time horizon 지표에서 프론티어 모델이 50% 신뢰도로 완료 가능한 작업 시간이 2019년 이후 7개월마다 두 배 증가 중
Long-running execution: 에이전트 프로세스가 수시간~수일 실행. 주로 harness 설계의 문제
Persistent agency: 단일 작업을 넘어 정체성 유지, 메모리 축적, 사용자 선호 학습. Google Memory Bank가 대표 사례

생산성은 단일 세션 능력보다 복구 가능성, 상태 지속성, 자기 검증에서 결정됨.

모든 장기 실행 에이전트가 부딪히는 세 가지 벽

유한한 컨텍스트: 1M 토큰 윈도우도 소진됨. 윈도우가 채워지기 전에 context rot(성능 점진적 저하) 발생
영속 상태 부재: 새 세션은 백지 상태. Anthropic은 “교대 근무 엔지니어가 전혀 인수인계 없이 도착”에 비유
자기 검증 부재: 모델이 자기 작업 평가 시 긍정 편향. 30% 완성 상태에서 완전한 확신과 함께 결과물 제출

랠프 루프 (Ralph Loop)

Geoffrey Huntley와 Ryan Carson이 대중화한 실무자용 장기 실행 패턴. bash 스크립트 하나가 레퍼런스 구현
동작: prd.json(계획) → progress.txt(랩 노트) → AGENTS.md(롤링 룰북) → 에이전트 호출 → 테스트 → 반복
핵심 원리: “에이전트는 기억상실, 파일시스템은 기억 유지”
Ryan Carson의 Compound Product는 분석·계획·실행 루프 체이닝 → Anthropic의 planner-generator-evaluator 삼중 구조의 오픈소스 버전
관련: 2026-03-24-anthropic-harness-design, 2026-04-30-improving-deep-agents-with-harness-engineering

Anthropic: Brain/Hands/Session 분리

첫 번째 접근 (하네스 구조)

Initializer 에이전트: 환경 구성, feature-list.json, init.sh
Coding 에이전트: 기능 단위 진행, 테스트 실행, claude-progress.txt, 커밋
테스트 래칫(Test Ratchet): “테스트 삭제/수정 불가” — 에이전트가 실패 테스트를 삭제해 통과시키는 흔한 실패 방지 | InfoQ 확장 버전: planner, generator, evaluator 삼중 구조로 발전

두 번째 접근 (Brain/Hands/Session 분리) — 2026-04-09-claude-managed-agents

Brain: 모델 + 하네스 루프
Hands: 도구가 실행되는 샌드박스화된 임시 실행 환경
Session: 모든 사고·도구 호출·관찰의 추가 전용(append-only) 이벤트 로그
wake(sessionId) 호출로 로그에서 상태 재구성. time-to-first-token p50 ≈60%, p95 ≥90% 감소
세션-이벤트-로그 개념이 가장 과소평가된 부분. 없으면 컨테이너 장애 = 세션 장애

Cursor: Planner, Worker, Judge 구조

cursor의 장기 자율 코딩 확장, 세 번의 설계 반복:
1. 플랫 조정: 동등 지위 에이전트 + 락 → churning(반복만 하고 커밋 안 함)
2. 낙관적 동시성 제어: 병목 해소 but 조정 문제 미해결
3. Planner/Worker/Judge: Planner(코드베이스 탐색·작업 생성·재귀 스폰), Worker(집중 실행·독립 작업), Judge(완료 판정·재시작 결정)
핵심 발견: 시스템 동작의 많은 부분이 하네스나 모델보다 프롬프트에 좌우됨
GPT 모델이 장시간 자율 작업에서 Opus보다 우수 (Opus는 조기 중단·지름길 선택 경향)
각 에이전트가 격리된 git worktree에서 실행, PR을 통해 병합
최종 구조는 Anthropic과 유사: 역할 분리, 세션 지속, judge 분리

Google: Agent Platform

Cloud Next ‘26에서 Vertex AI → Gemini Enterprise Agent Platform 통합
Agent Runtime: 수일간 자율 실행, 서브초 콜드스타트, 온디맨드 샌드박스
Agent Sessions: 대화·이벤트 이력 영속화, 커스텀 세션 ID → CRM/DB 매핑
Agent Memory Bank: GA 출시, 장기 큐레이션 메모리, Payhawk 사례 경비 제출 50%+ 단축
관련: 2026-04-26-enterprise-agent-platform-comparison

프로덕션 장기 실행 에이전트 — 다섯 가지 패턴

Checkpoint-and-resume: 가장 흔한 단일 실패 = 컨텍스트 손실. N 작업 단위마다 체크포인트
Delegated approval (HITL): 에이전트가 추론 체인·작업 메모리·도구 이력 전체 유지한 채 일시정지, 인간 검토 후 서브초 재개
Memory-layered context: Memory Bank(장기) + Memory Profiles(저지연). 위험: memory drift — 비정형 상호작용에서 절차적 지름길 학습
Ambient processing: Pub/Sub·BigQuery 이벤트에 반응. 정책을 Gateway에 정의, 재배포 없이 수백 개 에이전트에 반영
Fleet orchestration: 코디네이터가 전문가 에이전트에게 위임. 각 전문가는 고유 Identity, 정책, Registry 항목

실제 구축 경로

자체 코딩 작업: Claude Code, Antigravity, Cursor, Codex. AGENTS.md 파일럿 체크리스트처럼 관리, Ralph 루프로 완료 재확인, worktree에서 야간 작업 유지
호스팅 제품 구축: Google Agent Platform, Claude Managed Agents, 또는 ADK/Claude Agent SDK/Codex SDK 위에 자체 호스팅
자율 운영 업무: ADK + Memory Bank + Cloud Run + Cloud Scheduler

현재의 실질적 한계

비용: 프론티어 모델 24시간 실행 시 예산·서킷 브레이커·하드캡 필수
보안: brain/hands 분리 패턴으로 공격 표면 축소, 샌드박스에서 크레덴셜 접근 불가 유지
Alignment drift: 여러 컨텍스트 윈도우를 거치며 표류. 훅과 judge가 방어
검증: 24시간 자율 활동 감사는 실제 인간 시간 문제. 구조화된 산출물(PR, 커밋, 테스트)이 tractable하게 만듦

향후 방향

Google, Anthropic, Cursor가 모델 루프·실행 샌드박스·세션 로그 분리로 수렴
차이는 표면적: Google은 엔터프라이즈 스택, Anthropic은 하네스 호스팅, Cursor는 IDE→클라우드
향후 1년 과제: 조정 — 공유 코드베이스에서 다수 장기 에이전트 운영, 자기 트레이스로 자체 하네스 패치, 작업에 맞춰 도구·컨텍스트 JIT 조립

관련 위키 페이지

harness — 하네스 설계 아키텍처 패턴 (핵심)
moc-ai-agents — AI Agents MOC
moc-ai-agents-harness — 하네스 MOC
moc-ai-agents-orchestration — 오케스트레이션 MOC
moc-ai-agents-context-stack — 컨텍스트 스택 MOC
2026-04-09-claude-managed-agents — Claude Managed Agents
2026-04-30-improving-deep-agents-with-harness-engineering — 하네스 엔지니어링
2026-03-24-anthropic-harness-design — Anthropic 하네스 설계
2026-04-26-enterprise-agent-platform-comparison — 기업용 에이전트 플랫폼 비교
2026-05-04-chatops-supervised-trading-blueprint — 감독형 트레이딩 (장기 실행 사례)
2026-04-30-archon-harness-builder — Archon 하네스 빌더
moc-ai-coding-ops-console — AI 코딩 운영 콘솔
cursor — Cursor IDE
2026-04-26-karpathy-claude-code-guidelines — Karpathy 코딩 원칙
2026-04-28-hermes-agent-recent-use-cases — Hermes Agent 활용 사례

그래프 뷰

장기 실행 에이전트 — 종합 정리
”장기 실행”의 세 가지 의미
모든 장기 실행 에이전트가 부딪히는 세 가지 벽
랠프 루프 (Ralph Loop)
Anthropic: Brain/Hands/Session 분리
첫 번째 접근 (하네스 구조)
두 번째 접근 (Brain/Hands/Session 분리) — 2026-04-09-claude-managed-agents
Cursor: Planner, Worker, Judge 구조
Google: Agent Platform
프로덕션 장기 실행 에이전트 — 다섯 가지 패턴
실제 구축 경로
현재의 실질적 한계
향후 방향
관련 위키 페이지

백링크

index
OpenAlice — AI trading agent with ChatOps and trading-as-Git
Hermes Agent Kanban — 멀티 에이전트 작업을 위한 영속 코디네이션

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community