SpreadsheetBench & TerminalBench
Kevin Gu가 발표한 AI 에이전트 벤치마크. AutoAgent 개발 과정에서 사용된 평가 도구들.
SpreadsheetBench
- URL: spreadsheetbench.github.io
- 스프레드시트 작업 기반의 AI 에이전트 평가 벤치마크
TerminalBench
- URL: github.com/harbor-framework/terminal-bench
- 새 사용자는 Harbor 프레임워크를 사용하는 것을 권장 (Terminal-Bench 2.0 실행 가능)
- 실제 터미널 환경에서 AI 에이전트를 테스트하는 벤치마크
- 코드 컴파일, 모델 훈련, 서버 설정 등 실제 엔드투엔드 과제 평가
- 현재 베타 단계, 약 100개 과제 포함
- 데이터셋(과제) + 실행 하네스(LLM→터미널 샌드박스 연결)로 구성
Content
AI 에이전트의 실제 환경 성능을 평가하기 위한 벤치마크 도구들. SpreadsheetBench는 스프레드시트 조작 능력을, TerminalBench는 터미널 환경에서의 자율적 작업 수행 능력을 평가한다. TerminalBench는 Harbor 프레임워크와 통합되어 더 확장 가능한 형태로 발전하고 있다.
Sources
- SpreadsheetBench: spreadsheetbench.github.io
- TerminalBench: harbor-framework/terminal-bench
- Harbor Framework: laude-institute/harbor
- Presentation: Kevin Gu on X