AI 에이전트 스킬, 벤치마크 성능의 절반도 현실에서 안 나온다
34k 실전 스킬 풀에서는, 벤치마크에서 보이던 스킬 효과가 검색·선별·적응 병목 때문에 크게 약화된다는 점을 보여준 연구.
개요
UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab 연구진은 오픈소스에서 수집한 34,198개의 스킬을 바탕으로, LLM 에이전트가 현실적인 조건에서 스킬을 얼마나 잘 활용하는지 평가했다. 핵심 문제의식은 기존 스킬 벤치마크가 “작업에 딱 맞는 스킬을 미리 제공받는 이상적 상황”에 치우쳐 있어, 실제 배포 환경의 성능을 과대평가한다는 점이다.
이 논문은 스킬 직접 제공에서 시작해 대규모 스킬 풀 검색, 관련 없는 스킬 혼입, 맞춤형 스킬 부재까지 점점 더 현실적인 설정을 단계적으로 구성했다. 그 결과, 스킬의 효용은 존재하지만 생각보다 매우 취약하며, 특히 검색과 선택이 모델 내부 추론만큼 중요한 병목이라는 점이 드러났다.
핵심 결과
- Claude Opus 4.6 기준 pass rate는 스킬 직접 제공 시 55.4%였지만, 현실적인 대규모 검색+선택 조건에서는 40.1%로 하락했다.
- 맞춤형 스킬이 아예 없을 때는 38.4%로, 스킬 미사용 기준선 35.4%와 거의 차이가 없었다.
- 약한 모델(Kimi K2.5, Qwen3.5-397B 계열)은 스킬을 잘못 가져오면 오히려 기준선보다 성능이 떨어지는 역효과도 보였다.
- Claude도 맞는 스킬이 있어도 절반가량(49%)만 정확히 골랐고, 검색 recall@5 역시 최대 65.5% 수준에 그쳤다.
- 다만 query-specific refinement를 적용하면 Claude의 pass rate가 40.1%에서 48.2%까지 회복되었고, Terminal-Bench 2.0에서는 57.7%에서 65.5%로 개선됐다.
실무적 해석
이 결과는 “스킬을 많이 쌓아두면 에이전트가 자연스럽게 강해진다”는 기대를 정면으로 수정한다. 실제로는 스킬 저장소의 크기보다, 현재 과업과 맞는 스킬을 좁혀 주는 retrieval·ranking·adaptation 품질이 훨씬 더 중요하다. 즉 스킬은 마법의 성능 부스터가 아니라, 하네스가 잘 설계되었을 때만 이득을 주는 지식 조각에 가깝다.
이 관점은 2026-04-15-claude-code-vs-codex-comparison에서 드러난 “방대한 추상화보다 직접적인 지시 파일과 작업 경계가 더 안정적일 수 있다”는 실무 감각과도 맞닿아 있다. 또한 harness 관점에서 보면, 스킬은 모델 외부의 구조화 지식이지만 그 효용은 결국 하네스의 검색/선택/검증 설계에 종속된다.
Sources
- GeekNews: https://news.hada.io/topic?id=28581
- arXiv: https://arxiv.org/abs/2604.04323
- Code: https://github.com/UCSB-NLP-Chang/Skill-Usage
Related Notes
- harness — 스킬·평가·검색을 포함한 에이전트 하네스의 구조적 맥락
- 2026-03-29-agent-eval-checklist — 에이전트 평가를 단순한 기준에서 시작해야 한다는 체크리스트
- 2026-03-29-anthropic-harness-design-experiment — 성능을 실제로 끌어올리는 것은 모델보다 하네스라는 사례
- 2026-04-15-claude-code-vs-codex-comparison — 지시 파일/워크플로우 품질이 실제 결과를 좌우한 실무 비교
- moc-ai-agents-harness — 하네스 & 자가개선 MOC