LLM Wiki

❯

❯

Threads — 하네스 벤치마크와 로컬 모델 결과

Threads — 하네스 벤치마크와 로컬 모델 결과

2026년 5월 25일2 min read

ai-agents
open-source
research
automation

Threads — 하네스 벤치마크와 로컬 모델 결과

출처: 2026-05-25-threads-geun-daeng-harness-benchmark · 관련 문서: harness, moc-ai-agents-harness, 2026-05-24-agent-harness-engineering-survey

요약

@geun._.daeng의 Threads 포스트.
본인 하네스와 오케스트레이션 레이어를 직접 만들어 쓰고 있다고 소개한다.
오픈소스 로컬 모델로 GPT와 Claude를 “이겨먹었다”고 주장한다.
공개된 수치로는 SWE-Bench Pro Public Dataset에서 72.6 ([66.4-78.1] Wilson 95CI)을 제시한다.

읽을 때의 주의점

이 문서는 원문 주장과 메타데이터를 보존하는 목적이다.
성능 수치는 글쓴이의 자가 보고이므로, 별도 재현/검증이 필요하다.
Threads 본문은 동적 로딩 때문에 외부 추출이 제한되어, 현재 저장본은 HTML 메타데이터 기반 캡처다.

연결 노트

harness — 에이전트 하네스의 구조와 설계 원칙 정리.
moc-ai-agents-harness — 하네스 & 자가개선 관련 묶음.
2026-05-24-agent-harness-engineering-survey — 하네스를 독립 시스템 계층으로 보는 서베이 노트.

그래프 뷰

Threads — 하네스 벤치마크와 로컬 모델 결과
요약
읽을 때의 주의점
연결 노트

백링크

Threads — 하네스 벤치마크와 로컬 모델 결과
MOC - AI Agents: 하네스 & 자가개선
ETCLOVG · O — Observability & Operations (관측 가능성 · 운영)
ETCLOVG · V — Verification & Evaluation (검증 · 평가)
Harness (AI Agent Architecture)
index
Agent Harness Survey — 학습 리소스 인덱스

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community