SuperGemma4 — Gemma 4 계열 무검열 MLX 4bit 로컬 실행 메모

사용자 메모 기준, Jiunsong이 Gemma 4 MoE 멀티모달 공개 직후 무검열(ablation) 처리와 MLX 4bit 양자화를 붙여 Apple Silicon에서 바로 돌릴 수 있는 버전을 올렸다. 기존 Gemma4보다 툴콜 성공률을 크게 끌어올렸고, 로컬 서버에 바로 붙일 수 있는 실용형 변종으로 정리된다.

핵심 요약

Google의 Gemma 4 계열 오픈소스 모델 공개 직후 커뮤니티에서 빠르게 실용화된 파생본
무검열(ablation) 처리로 거부 회로를 제거
MLX 4bit 양자화로 Apple Silicon에서 즉시 구동 가능
툴콜 성공률이 기존 Gemma4 대비 2배 개선됐다고 사용자 메모에 기록됨
코딩/추론 수치가 인상적이지만, 속도는 Qwen3.5 대비 느린 편

사용자 메모 기준 벤치마크 / 체감

LiveCodeBench: Qwen3.5(74.6) < SuperGemma4(77.1)
GPQA Diamond: 82.3
AIME 2026: 88.3%
툴콜 성공률: 기존 Gemma4 대비 2배 개선(자체 측정)
생성 속도: 46 tok/s
비교 대상인 Qwen3.5: 103 tok/s

로컬 서버 이슈

기존 로컬 서버에 붙이려는 순간 ValueError: Model type gemma4 not supported. 에러가 발생
원인: mlx-lm PyPI 최신 릴리즈(0.31.x)에 gemma4 아키텍처가 아직 없었음
GitHub 메인 브랜치에는 gemma4.py가 이미 머지되어 있었음
해결: PyPI 릴리즈 대신 GitHub 최신 브랜치로 직접 설치

실무 메모

이 케이스는 “모델 공개 → 커뮤니티 파생본 → Apple Silicon 로컬화 → 서버 연동”까지 매우 빠르게 이어지는 흐름을 보여준다.
정확히는 베이스 모델의 실용성이 커뮤니티에서 먼저 증명된 사례에 가깝다.
로컬 LLM을 쓰는 입장에서는, 릴리즈된 패키지가 최신 아키텍처를 항상 따라가지 못한다는 점을 다시 확인하게 된다.

전환 메모

./llm-server.sh               # Qwen3.5-35B — 속도 우선, 범용/코딩
./llm-server.sh supergemma4   # SuperGemma4 — 무검열, 멀티모달(예정)

OpenAI SDK 호환이라 클라이언트 코드는 바꾸지 않고 그대로 사용 가능
동일 서버에서 두 모델을 전환하는 로컬 운영 패턴으로 적합

Sources

https://lnkd.in/gMpiw7qN
사용자 제공 요약 메모

LLM Wiki

탐색기

SuperGemma4 — Gemma 4 계열 무검열 MLX 4bit 로컬 실행 메모

SuperGemma4 — Gemma 4 계열 무검열 MLX 4bit 로컬 실행 메모

핵심 요약

사용자 메모 기준 벤치마크 / 체감

로컬 서버 이슈

실무 메모

전환 메모

관련 노트

Sources

그래프 뷰

목차

백링크