OpenMythos — Recurrent-Depth Transformer 재구현
Claude Mythos가 Recurrent-Depth Transformer (RDT) 아키텍처를 사용했다는 가설을 기반에서 재구현한 오픈소스 프로젝트. MIT 라이선스.
핵심 가설
Claude Mythos는 수백 개의 고유한 레이어를 쌓는 대신, 일부 레이어를 재활용하여 순간 전파(foreward pass) 동안 여러 번 실행하는 Looped Transformer일 가능성이 있다. 이는 chain-of-thought와 다르며, 모든 추론이 연속 잠재 공간(latent space)에서 단일 전파 내에 silently 일어난다.
아키텍처
Input
↓
[Prelude P] — 표준 transformer 레이어, 한 번 실행
↓
[Recurrent Block R] — T번 루프
↑_______↓ (은닉 상태 h가 각 루프마다 입력 e와 함께 업데이트)
↓
[Coda C] — 표준 transformer 레이어, 한 번 실행
↓
Output
재귀 블록 업데이트 규칙:
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
h_t: 루프 t 후의 은닉 상태e: Prelude에서 인코딩된 입력 (각 루프에서 주입)A,B: 학습된 주입 파라미터
주요 구성 요소
Attention: MLA vs GQA
- MLA (Multi-Latent Attention): 압축된 KV 잠재 공간 캐싱. 표준 attention 대비 10–20배 작은 KV 캐시.
- GQA (Grouped Query Attention): fewer KV heads per Q heads.
MoE FFN (Recurrent Block 내)
- DeepSeek 스타일 sparse Mixture-of-Experts
n_experts=64중n_experts_per_tok=4(약 6.25% 활성화)n_shared_experts=2(항상 활성)
안정성 & 적응
- ACT (Adaptive Computation Time): 누적 확률 임계값 도달 시 루프 조기 종료 (
act_threshold=0.99) - Depth-wise LoRA: 각 루프 내부에 depth-wise LoRA adapter 적용 (
lora_rank=16) - RoPE: LLaMA-3 기본값
rope_theta=500000.0
Mythos가 이를 설명하는 이유
1. 체계적 일반화 (Systematic Generalization)
일반 transformer는 훈련 중 본 적 없는 지식 조합을 실패한다. Looped transformer는 3단계 grokking을 통과:
- 암기 — 훈련 분포에 적합
- 분포 내 일반화 — 알려진 조합 처리
- 체계적 일반화 — 새로운 조합을 갑자기 갑자기 처리 (OOD)
2. 깊이 외삽 (Depth Extrapolation)
5-hop 추론에 훈련 → 10-hop 테스트. 일반 transformer는 실패, Looped transformer는 더 많은 inference-time 루프로 성공.
3. 잠재적 사고 = 암묵적 CoT
각 루프 반복은 chain-of-thought의 한 단계와 기능적 동등성. 연속 잠재 공간에서 동작하므로 token space로 변환되는 중간 출력 없음.
설치 및 사용
git clone https://github.com/The-Swarm-Corporation/OpenMythos.git
cd OpenMythos
pip install -r requirements.txtfrom open_mythos.main import OpenMythos, MythosConfig
cfg = MythosConfig(attn_type="mla", max_loop_iters=16)
model = OpenMythos(cfg)
logits = model(input_ids, n_loops=8)관련 페이지
- 2026-04-08-claude-mythos-preview-benchmarks — Anthropic Claude Mythos 공식 벤치마크
- moc-claude-code — Claude Code 관련 정보
출처
- kyegomez/OpenMythos — GitHub 리포지토리
- OpenMythos API Docs — 클래스 참조
- open_mythos/main.py — 메인 구현