Mac mini에서 Ollama과 Gemma 4 모델 설정 요약

Apple Silicon 기반 Mac mini에서 Ollama와 Gemma 4를 자동 실행하고 메모리에 지속 유지하도록 구성하는 실전 가이드. 8B 모델은 약 9.6GB 메모리로 안정적 동작, OpenAI 호환 API로 로컬 LLM 서비스 구축 가능.

Key Points

  • Apple Silicon (M1~M5) Mac mini + 16GB 통합 메모리 권장
  • Ollama v0.19+는 MLX 백엔드와 NVFP4 포맷 지원 (Apple + NVIDIA 추론 성능 향상)
  • 26B 모델은 메모리 점유가 높아 비추천, 8B (Q4_K_M 양자화) 모델이 실사용 적합
  • Launch Agent + 환경 변수로 재부팅 후 자동 로드 + 무기한 유지 가능
  • 로컬 API (localhost:11434)로 OpenAI 호환 Chat Completion 요청 가능

Content

사전 준비

  • Apple Silicon (M1~M5) 기반 Mac mini
  • Gemma 4 (8B) 구동을 위해 최소 16GB 통합 메모리
  • Homebrew 설치된 macOS 환경

Step 1 — Ollama 설치

brew install --cask ollama-app

설치 후 /Applications/에 Ollama.app, /opt/homebrew/bin/ollama에 CLI 배치. 자동 업데이트 및 MLX 백엔드 포함.

Step 2 — Ollama 실행 및 확인

open -a Ollama
ollama list

Step 3 — Gemma 4 모델 다운로드

ollama pull gemma4

약 9.6GB 다운로드. 26B 모델은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생. 기본 8B (Q4_K_M 양자화) 모델 사용 권장.

Step 4 — 모델 테스트 및 GPU 가속 확인

ollama run gemma4:latest "Hello, what model are you?"
ollama ps
# 예시: CPU/GPU 비율 14%/86%

Step 5 — 자동 실행 및 모델 유지 설정

5a. Ollama 앱 자동 실행

메뉴 막대 아이콘 → Launch at Login 활성화, 또는 System Settings > General > Login Items에서 수동 추가.

5b. Gemma 4 자동 프리로드

Launch Agent 생성 → 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지:

cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
# (Launch Agent plist 생성)
EOF
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist

5c. 모델 무기한 유지

launchctl setenv OLLAMA_KEEP_ALIVE "-1"
# ~/.zshrc에 추가하여 재부팅 후에도 유지

Step 6 — 설정 검증

ollama list
ollama ps
launchctl list | grep ollama
# 예상 출력: gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

API 접근

로컬 API 엔드포인트: http://localhost:11434

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}]}'

유용한 명령어

명령어설명
ollama list다운로드된 모델 목록
ollama ps실행 중인 모델 및 메모리 사용량
ollama run gemma4:latest대화형 실행
ollama stop gemma4:latest모델 언로드

관련 노트

Sources