Qwen3.6-35B-A3B MLX 4bit, 맥북 M4에서 로컬로 돌려보기
Qwen3.6-35B-A3B의 MLX 4bit 변형을 MacBook M4에서 로컬로 실행해본 메모. 35B MoE지만 활성 파라미터가 3B 수준이라 Apple Silicon에서 실사용 가능한지, 메모리·컨텍스트·속도 관점으로 정리한 글이다.
핵심 요약
- 대상 모델:
mlx-community/Qwen3.6-35B-A3B-4bit - 원문 모델 카드:
Qwen/Qwen3.6-35B-A3B - 총 파라미터는 35B지만, 추론 시 활성 파라미터는 3B 수준
- 4bit 양자화 모델 크기는 약 19GB
- MacBook M4 32GB에서 실사용 가능하다고 정리
- 권장 메모리 여유와 디스크 공간을 포함해 로컬 구동 조건을 설명
모델 메모
- MoE 구조: 256 experts 중 8+1 활성
- 컨텍스트 길이: 262,144 tokens, 최대 1,010,000까지 언급
- 비전 입력도 지원
- 라이선스: Apache 2.0
로컬 실행 관점
메모리
- 16GB: 불가
- 24GB: 매우 타이트
- 32GB: 실사용 권장
예상 사용량
- 모델 로딩과 KV 캐시를 합치면 8K 기준 약 22-26GB 수준
- 32GB에서는 여유가 남지만 32K 이상 컨텍스트부터는 급격히 빡빡해짐
속도 감각
- 일반 텍스트 생성: 대략 15-25 tok/s
- Thinking 모드: 대략 8-15 tok/s
- 비전 입력: 대략 10-20 tok/s
설치 메모
pip install -U mlx-vlm기본 실행 예시:
python -m mlx_vlm.generate \
--model mlx-community/Qwen3.6-35B-A3B-4bit \
--max-tokens 100 \
--temperature 0.0 \
--prompt "Describe this image." \
--image <path_to_image>실무 해석
- Qwen3.6-35B-A3B를 “호스티드 API용 모델”로만 보지 말고, MLX 4bit로 로컬화 가능한 모델로 같이 봐야 한다.
- Apple Silicon에서의 실사용 가능 여부를 판단할 때는 총 파라미터보다 활성 파라미터와 실제 메모리 풋프린트가 더 중요하다.
- Qwen3.6-35B-A3B 본문 노트와 연결하면, hosted 모델과 local MLX 런타임 사이의 간극이 더 분명해진다.
관련 노트
- 2026-04-16-qwen3-6-35b-a3b
- 2026-04-05-qwen3-6-plus
- 2026-04-08-openclaw-opus-alternative-qwen
- 2026-05-12-rapid-mlx-apple-silicon-local-ai-engine