Threads — 하네스 벤치마크와 로컬 모델 결과

출처: 2026-05-25-threads-geun-daeng-harness-benchmark · 관련 문서: harness, moc-ai-agents-harness, 2026-05-24-agent-harness-engineering-survey

요약

  • @geun._.daeng의 Threads 포스트.
  • 본인 하네스와 오케스트레이션 레이어를 직접 만들어 쓰고 있다고 소개한다.
  • 오픈소스 로컬 모델로 GPT와 Claude를 “이겨먹었다”고 주장한다.
  • 공개된 수치로는 SWE-Bench Pro Public Dataset에서 72.6 ([66.4-78.1] Wilson 95CI)을 제시한다.

읽을 때의 주의점

  • 이 문서는 원문 주장과 메타데이터를 보존하는 목적이다.
  • 성능 수치는 글쓴이의 자가 보고이므로, 별도 재현/검증이 필요하다.
  • Threads 본문은 동적 로딩 때문에 외부 추출이 제한되어, 현재 저장본은 HTML 메타데이터 기반 캡처다.

연결 노트