SuperGemma4 — Gemma 4 계열 무검열 MLX 4bit 로컬 실행 메모

사용자 메모 기준, Jiunsong이 Gemma 4 MoE 멀티모달 공개 직후 무검열(ablation) 처리와 MLX 4bit 양자화를 붙여 Apple Silicon에서 바로 돌릴 수 있는 버전을 올렸다. 기존 Gemma4보다 툴콜 성공률을 크게 끌어올렸고, 로컬 서버에 바로 붙일 수 있는 실용형 변종으로 정리된다.

핵심 요약

  • Google의 Gemma 4 계열 오픈소스 모델 공개 직후 커뮤니티에서 빠르게 실용화된 파생본
  • 무검열(ablation) 처리로 거부 회로를 제거
  • MLX 4bit 양자화로 Apple Silicon에서 즉시 구동 가능
  • 툴콜 성공률이 기존 Gemma4 대비 2배 개선됐다고 사용자 메모에 기록됨
  • 코딩/추론 수치가 인상적이지만, 속도는 Qwen3.5 대비 느린 편

사용자 메모 기준 벤치마크 / 체감

  • LiveCodeBench: Qwen3.5(74.6) < SuperGemma4(77.1)
  • GPQA Diamond: 82.3
  • AIME 2026: 88.3%
  • 툴콜 성공률: 기존 Gemma4 대비 2배 개선(자체 측정)
  • 생성 속도: 46 tok/s
  • 비교 대상인 Qwen3.5: 103 tok/s

로컬 서버 이슈

  • 기존 로컬 서버에 붙이려는 순간 ValueError: Model type gemma4 not supported. 에러가 발생
  • 원인: mlx-lm PyPI 최신 릴리즈(0.31.x)에 gemma4 아키텍처가 아직 없었음
  • GitHub 메인 브랜치에는 gemma4.py가 이미 머지되어 있었음
  • 해결: PyPI 릴리즈 대신 GitHub 최신 브랜치로 직접 설치

실무 메모

  • 이 케이스는 “모델 공개 → 커뮤니티 파생본 → Apple Silicon 로컬화 → 서버 연동”까지 매우 빠르게 이어지는 흐름을 보여준다.
  • 정확히는 베이스 모델의 실용성이 커뮤니티에서 먼저 증명된 사례에 가깝다.
  • 로컬 LLM을 쓰는 입장에서는, 릴리즈된 패키지가 최신 아키텍처를 항상 따라가지 못한다는 점을 다시 확인하게 된다.

전환 메모

./llm-server.sh               # Qwen3.5-35B — 속도 우선, 범용/코딩
./llm-server.sh supergemma4   # SuperGemma4 — 무검열, 멀티모달(예정)
  • OpenAI SDK 호환이라 클라이언트 코드는 바꾸지 않고 그대로 사용 가능
  • 동일 서버에서 두 모델을 전환하는 로컬 운영 패턴으로 적합

관련 노트

Sources