Claude Mythos Preview — Anthropic 최강 모델
Anthropic이 2026년 4월 7일 공개한 Claude Mythos Preview. 역대 가장 강력한 모델이나 일반 사용자에게는 제공하지 않고 내부 R&D 용도로만 사용.
Official Benchmark Scores (vs Opus 4.6)
| 벤치마크 | Mythos | Opus 4.6 |
|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% |
| SWE-bench Verified | 93.9% | 80.8% |
| SWE-bench Multilingual | 87.3% | 77.8% |
| SWE-bench Multimodal | 59.0% | 27.1% |
| Terminal-Bench 2.0 | 82.0% (4hr: 92.1%) | 65.4% |
| GPQA Diamond | 94.6% | 91.3% |
| Humanity’s Last Exam (no tools) | 56.8% | 40.0% |
| Humanity’s Last Exam (with tools) | 64.7% | 53.1% |
| BrowseComp | 86.9% (4.9x fewer tokens) | 83.7% |
| OSWorld-Verified | 79.6% | 72.7% |
| CyberGym (vuln reproduction) | 83.1% | 66.6% |
핵심 발표
- 몇 주 만에 모든 주요 OS와 브라우저에서 수천 개의 제로데이 취약점 발견
- Project Glasswing 발표: critical software securing initiative
- Risk report: 전반적 위험 “매우 낮지만, 이전 모델보다 높음”
- Anthropic 기준 가장 잘 정렬된 모델