SuperGemma4 — Gemma 4 계열 무검열 MLX 4bit 로컬 실행 메모
사용자 메모 기준, Jiunsong이 Gemma 4 MoE 멀티모달 공개 직후 무검열(ablation) 처리와 MLX 4bit 양자화를 붙여 Apple Silicon에서 바로 돌릴 수 있는 버전을 올렸다. 기존 Gemma4보다 툴콜 성공률을 크게 끌어올렸고, 로컬 서버에 바로 붙일 수 있는 실용형 변종으로 정리된다.
핵심 요약
- Google의 Gemma 4 계열 오픈소스 모델 공개 직후 커뮤니티에서 빠르게 실용화된 파생본
- 무검열(ablation) 처리로 거부 회로를 제거
- MLX 4bit 양자화로 Apple Silicon에서 즉시 구동 가능
- 툴콜 성공률이 기존 Gemma4 대비 2배 개선됐다고 사용자 메모에 기록됨
- 코딩/추론 수치가 인상적이지만, 속도는 Qwen3.5 대비 느린 편
사용자 메모 기준 벤치마크 / 체감
- LiveCodeBench: Qwen3.5(74.6) < SuperGemma4(77.1)
- GPQA Diamond: 82.3
- AIME 2026: 88.3%
- 툴콜 성공률: 기존 Gemma4 대비 2배 개선(자체 측정)
- 생성 속도: 46 tok/s
- 비교 대상인 Qwen3.5: 103 tok/s
로컬 서버 이슈
- 기존 로컬 서버에 붙이려는 순간
ValueError: Model type gemma4 not supported.에러가 발생 - 원인:
mlx-lmPyPI 최신 릴리즈(0.31.x)에 gemma4 아키텍처가 아직 없었음 - GitHub 메인 브랜치에는
gemma4.py가 이미 머지되어 있었음 - 해결: PyPI 릴리즈 대신 GitHub 최신 브랜치로 직접 설치
실무 메모
- 이 케이스는 “모델 공개 → 커뮤니티 파생본 → Apple Silicon 로컬화 → 서버 연동”까지 매우 빠르게 이어지는 흐름을 보여준다.
- 정확히는 베이스 모델의 실용성이 커뮤니티에서 먼저 증명된 사례에 가깝다.
- 로컬 LLM을 쓰는 입장에서는, 릴리즈된 패키지가 최신 아키텍처를 항상 따라가지 못한다는 점을 다시 확인하게 된다.
전환 메모
./llm-server.sh # Qwen3.5-35B — 속도 우선, 범용/코딩
./llm-server.sh supergemma4 # SuperGemma4 — 무검열, 멀티모달(예정)- OpenAI SDK 호환이라 클라이언트 코드는 바꾸지 않고 그대로 사용 가능
- 동일 서버에서 두 모델을 전환하는 로컬 운영 패턴으로 적합
관련 노트
- 2026-04-15-supergemma4-geeknews-coverage
- 2026-04-13-supergemma4-26b-uncensored-mlx
- 2026-04-17-qwen3-6-35b-a3b-mlx-macbook-local
- 2026-04-05-mac-mini-ollama-gemma4-setup
Sources
- https://lnkd.in/gMpiw7qN
- 사용자 제공 요약 메모