Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

Qwen3.5-27B를 Claude 4.6 Opus의 추론 패턴으로 증류한 모델. v2에서는 효율성을 크게 개선했다.

v2 업데이트 핵심

지표성과
HumanEval 정확도96.91% pass@1 (base 모델과 동일)
CoT 길이~24% 감소
토큰당 정답률+31.6% 향상
단점HumanEval+ -1.24%, MMLU-Pro -7.2%

설계 철학

v2의 목표는 모델이 “더 많이 생각하게” 하는 게 아니라 “더 경제적으로 생각하게” 하는 것:

  • 불필요하게 긴 내부 추론 체인 감소
  • 쉬운 문제에서 과도한 분석 회피
  • 추론-비용 대비 품질 비율 개선

학습된 추론 스캐폴드 예시

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.

학습 파이프라인

Base Model (Qwen3.5-27B)
        │
        ▼
Qwen3.5-27B fine-tuned with Unsloth
        │
        ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n<think/>")
        │
        ▼
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

사용 데이터셋

데이터셋용도
nohurry/Opus-4.6-Reasoning-3000x-filteredClaude 4.6 Opus 추론 궤적
Roman1111111/claude-opus-4.6-10000x대규모 일반 추론 증류
TeichAI/claude-4.5-opus-high-reasoning-250x고강도 구조화 추론
Jackrong/Qwen3.5-reasoning-700x단계별 문제해결 강화

한계 및 용도

  • 할루시네이션 위험: 여전히 autoregressive LLM
  • 권장 용도: 오프라인 분석, 코딩, 수학, 논리 의존 프롬프팅
  • 용도 제한: 학습 및 데모 목적, 학술 연구 및 기술 탐색 전용

GGUF 버전

이 링크는 GGUF 양자화 버전으로, 로컬 실행에 적합하다.