Threads — 하네스 벤치마크와 로컬 모델 결과
출처: 2026-05-25-threads-geun-daeng-harness-benchmark · 관련 문서: harness, moc-ai-agents-harness, 2026-05-24-agent-harness-engineering-survey
요약
- @geun._.daeng의 Threads 포스트.
- 본인 하네스와 오케스트레이션 레이어를 직접 만들어 쓰고 있다고 소개한다.
- 오픈소스 로컬 모델로 GPT와 Claude를 “이겨먹었다”고 주장한다.
- 공개된 수치로는 SWE-Bench Pro Public Dataset에서 72.6 ([66.4-78.1] Wilson 95CI)을 제시한다.
읽을 때의 주의점
- 이 문서는 원문 주장과 메타데이터를 보존하는 목적이다.
- 성능 수치는 글쓴이의 자가 보고이므로, 별도 재현/검증이 필요하다.
- Threads 본문은 동적 로딩 때문에 외부 추출이 제한되어, 현재 저장본은 HTML 메타데이터 기반 캡처다.
연결 노트
- harness — 에이전트 하네스의 구조와 설계 원칙 정리.
- moc-ai-agents-harness — 하네스 & 자가개선 관련 묶음.
- 2026-05-24-agent-harness-engineering-survey — 하네스를 독립 시스템 계층으로 보는 서베이 노트.