SpreadsheetBench & TerminalBench

Kevin Gu가 발표한 AI 에이전트 벤치마크. AutoAgent 개발 과정에서 사용된 평가 도구들.

SpreadsheetBench

URL: spreadsheetbench.github.io
스프레드시트 작업 기반의 AI 에이전트 평가 벤치마크

TerminalBench

URL: github.com/harbor-framework/terminal-bench
새 사용자는 Harbor 프레임워크를 사용하는 것을 권장 (Terminal-Bench 2.0 실행 가능)
실제 터미널 환경에서 AI 에이전트를 테스트하는 벤치마크
코드 컴파일, 모델 훈련, 서버 설정 등 실제 엔드투엔드 과제 평가
현재 베타 단계, 약 100개 과제 포함
데이터셋(과제) + 실행 하네스(LLM→터미널 샌드박스 연결)로 구성

Content

AI 에이전트의 실제 환경 성능을 평가하기 위한 벤치마크 도구들. SpreadsheetBench는 스프레드시트 조작 능력을, TerminalBench는 터미널 환경에서의 자율적 작업 수행 능력을 평가한다. TerminalBench는 Harbor 프레임워크와 통합되어 더 확장 가능한 형태로 발전하고 있다.

Sources

SpreadsheetBench: spreadsheetbench.github.io
TerminalBench: harbor-framework/terminal-bench
Harbor Framework: laude-institute/harbor
Presentation: Kevin Gu on X

Context Vault

탐색기

SpreadsheetBench & TerminalBench

SpreadsheetBench & TerminalBench

SpreadsheetBench

TerminalBench

Content

Sources

그래프 뷰

목차