Qwen3.6-35B-A3B MLX 4bit, 맥북 M4에서 로컬로 돌려보기

Qwen3.6-35B-A3B의 MLX 4bit 변형을 MacBook M4에서 로컬로 실행해본 메모. 35B MoE지만 활성 파라미터가 3B 수준이라 Apple Silicon에서 실사용 가능한지, 메모리·컨텍스트·속도 관점으로 정리한 글이다.

핵심 요약

대상 모델: mlx-community/Qwen3.6-35B-A3B-4bit
원문 모델 카드: Qwen/Qwen3.6-35B-A3B
총 파라미터는 35B지만, 추론 시 활성 파라미터는 3B 수준
4bit 양자화 모델 크기는 약 19GB
MacBook M4 32GB에서 실사용 가능하다고 정리
권장 메모리 여유와 디스크 공간을 포함해 로컬 구동 조건을 설명

모델 메모

MoE 구조: 256 experts 중 8+1 활성
컨텍스트 길이: 262,144 tokens, 최대 1,010,000까지 언급
비전 입력도 지원
라이선스: Apache 2.0

로컬 실행 관점

메모리

16GB: 불가
24GB: 매우 타이트
32GB: 실사용 권장

예상 사용량

모델 로딩과 KV 캐시를 합치면 8K 기준 약 22-26GB 수준
32GB에서는 여유가 남지만 32K 이상 컨텍스트부터는 급격히 빡빡해짐

속도 감각

일반 텍스트 생성: 대략 15-25 tok/s
Thinking 모드: 대략 8-15 tok/s
비전 입력: 대략 10-20 tok/s

설치 메모

pip install -U mlx-vlm

기본 실행 예시:

python -m mlx_vlm.generate \
  --model mlx-community/Qwen3.6-35B-A3B-4bit \
  --max-tokens 100 \
  --temperature 0.0 \
  --prompt "Describe this image." \
  --image <path_to_image>

실무 해석

Qwen3.6-35B-A3B를 “호스티드 API용 모델”로만 보지 말고, MLX 4bit로 로컬화 가능한 모델로 같이 봐야 한다.
Apple Silicon에서의 실사용 가능 여부를 판단할 때는 총 파라미터보다 활성 파라미터와 실제 메모리 풋프린트가 더 중요하다.
Qwen3.6-35B-A3B 본문 노트와 연결하면, hosted 모델과 local MLX 런타임 사이의 간극이 더 분명해진다.

LLM Wiki

탐색기

Qwen3.6-35B-A3B MLX 4bit, 맥북 M4에서 로컬로 돌려보기

Qwen3.6-35B-A3B MLX 4bit, 맥북 M4에서 로컬로 돌려보기

핵심 요약

모델 메모

로컬 실행 관점

메모리

예상 사용량

속도 감각

설치 메모

실무 해석

관련 노트

Sources

그래프 뷰

목차

백링크