Qwen3.6-35B-A3B MLX 4bit, 맥북 M4에서 로컬로 돌려보기

Qwen3.6-35B-A3B의 MLX 4bit 변형을 MacBook M4에서 로컬로 실행해본 메모. 35B MoE지만 활성 파라미터가 3B 수준이라 Apple Silicon에서 실사용 가능한지, 메모리·컨텍스트·속도 관점으로 정리한 글이다.

핵심 요약

  • 대상 모델: mlx-community/Qwen3.6-35B-A3B-4bit
  • 원문 모델 카드: Qwen/Qwen3.6-35B-A3B
  • 총 파라미터는 35B지만, 추론 시 활성 파라미터는 3B 수준
  • 4bit 양자화 모델 크기는 약 19GB
  • MacBook M4 32GB에서 실사용 가능하다고 정리
  • 권장 메모리 여유와 디스크 공간을 포함해 로컬 구동 조건을 설명

모델 메모

  • MoE 구조: 256 experts 중 8+1 활성
  • 컨텍스트 길이: 262,144 tokens, 최대 1,010,000까지 언급
  • 비전 입력도 지원
  • 라이선스: Apache 2.0

로컬 실행 관점

메모리

  • 16GB: 불가
  • 24GB: 매우 타이트
  • 32GB: 실사용 권장

예상 사용량

  • 모델 로딩과 KV 캐시를 합치면 8K 기준 약 22-26GB 수준
  • 32GB에서는 여유가 남지만 32K 이상 컨텍스트부터는 급격히 빡빡해짐

속도 감각

  • 일반 텍스트 생성: 대략 15-25 tok/s
  • Thinking 모드: 대략 8-15 tok/s
  • 비전 입력: 대략 10-20 tok/s

설치 메모

pip install -U mlx-vlm

기본 실행 예시:

python -m mlx_vlm.generate \
  --model mlx-community/Qwen3.6-35B-A3B-4bit \
  --max-tokens 100 \
  --temperature 0.0 \
  --prompt "Describe this image." \
  --image <path_to_image>

실무 해석

  • Qwen3.6-35B-A3B를 “호스티드 API용 모델”로만 보지 말고, MLX 4bit로 로컬화 가능한 모델로 같이 봐야 한다.
  • Apple Silicon에서의 실사용 가능 여부를 판단할 때는 총 파라미터보다 활성 파라미터와 실제 메모리 풋프린트가 더 중요하다.
  • Qwen3.6-35B-A3B 본문 노트와 연결하면, hosted 모델과 local MLX 런타임 사이의 간극이 더 분명해진다.

관련 노트

Sources