SpreadsheetBench & TerminalBench

Kevin Gu가 발표한 AI 에이전트 벤치마크. AutoAgent 개발 과정에서 사용된 평가 도구들.

SpreadsheetBench

TerminalBench

  • URL: github.com/harbor-framework/terminal-bench
  • 새 사용자는 Harbor 프레임워크를 사용하는 것을 권장 (Terminal-Bench 2.0 실행 가능)
  • 실제 터미널 환경에서 AI 에이전트를 테스트하는 벤치마크
  • 코드 컴파일, 모델 훈련, 서버 설정 등 실제 엔드투엔드 과제 평가
  • 현재 베타 단계, 약 100개 과제 포함
  • 데이터셋(과제) + 실행 하네스(LLM→터미널 샌드박스 연결)로 구성

Content

AI 에이전트의 실제 환경 성능을 평가하기 위한 벤치마크 도구들. SpreadsheetBench는 스프레드시트 조작 능력을, TerminalBench는 터미널 환경에서의 자율적 작업 수행 능력을 평가한다. TerminalBench는 Harbor 프레임워크와 통합되어 더 확장 가능한 형태로 발전하고 있다.

Sources