OpenMythos — Recurrent-Depth Transformer 재구현

Claude Mythos가 Recurrent-Depth Transformer (RDT) 아키텍처를 사용했다는 가설을 기반에서 재구현한 오픈소스 프로젝트. MIT 라이선스.

핵심 가설

Claude Mythos는 수백 개의 고유한 레이어를 쌓는 대신, 일부 레이어를 재활용하여 순간 전파(foreward pass) 동안 여러 번 실행하는 Looped Transformer일 가능성이 있다. 이는 chain-of-thought와 다르며, 모든 추론이 연속 잠재 공간(latent space)에서 단일 전파 내에 silently 일어난다.

아키텍처

Input
  ↓
[Prelude P]        — 표준 transformer 레이어, 한 번 실행
  ↓
[Recurrent Block R] — T번 루프
  ↑_______↓         (은닉 상태 h가 각 루프마다 입력 e와 함께 업데이트)
  ↓
[Coda C]           — 표준 transformer 레이어, 한 번 실행
  ↓
Output

재귀 블록 업데이트 규칙:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
  • h_t: 루프 t 후의 은닉 상태
  • e: Prelude에서 인코딩된 입력 (각 루프에서 주입)
  • A, B: 학습된 주입 파라미터

주요 구성 요소

Attention: MLA vs GQA

  • MLA (Multi-Latent Attention): 압축된 KV 잠재 공간 캐싱. 표준 attention 대비 10–20배 작은 KV 캐시.
  • GQA (Grouped Query Attention): fewer KV heads per Q heads.

MoE FFN (Recurrent Block 내)

  • DeepSeek 스타일 sparse Mixture-of-Experts
  • n_experts=64n_experts_per_tok=4 (약 6.25% 활성화)
  • n_shared_experts=2 (항상 활성)

안정성 & 적응

  • ACT (Adaptive Computation Time): 누적 확률 임계값 도달 시 루프 조기 종료 (act_threshold=0.99)
  • Depth-wise LoRA: 각 루프 내부에 depth-wise LoRA adapter 적용 (lora_rank=16)
  • RoPE: LLaMA-3 기본값 rope_theta=500000.0

Mythos가 이를 설명하는 이유

1. 체계적 일반화 (Systematic Generalization)

일반 transformer는 훈련 중 본 적 없는 지식 조합을 실패한다. Looped transformer는 3단계 grokking을 통과:

  1. 암기 — 훈련 분포에 적합
  2. 분포 내 일반화 — 알려진 조합 처리
  3. 체계적 일반화 — 새로운 조합을 갑자기 갑자기 처리 (OOD)

2. 깊이 외삽 (Depth Extrapolation)

5-hop 추론에 훈련 → 10-hop 테스트. 일반 transformer는 실패, Looped transformer는 더 많은 inference-time 루프로 성공.

3. 잠재적 사고 = 암묵적 CoT

각 루프 반복은 chain-of-thought의 한 단계와 기능적 동등성. 연속 잠재 공간에서 동작하므로 token space로 변환되는 중간 출력 없음.

설치 및 사용

git clone https://github.com/The-Swarm-Corporation/OpenMythos.git
cd OpenMythos
pip install -r requirements.txt
from open_mythos.main import OpenMythos, MythosConfig
 
cfg = MythosConfig(attn_type="mla", max_loop_iters=16)
model = OpenMythos(cfg)
logits = model(input_ids, n_loops=8)

관련 페이지

출처