Mac mini에서 Ollama과 Gemma 4 모델 설정 요약
Apple Silicon 기반 Mac mini에서 Ollama와 Gemma 4를 자동 실행하고 메모리에 지속 유지하도록 구성하는 실전 가이드. 8B 모델은 약 9.6GB 메모리로 안정적 동작, OpenAI 호환 API로 로컬 LLM 서비스 구축 가능.
Key Points
- Apple Silicon (M1~M5) Mac mini + 16GB 통합 메모리 권장
- Ollama v0.19+는 MLX 백엔드와 NVFP4 포맷 지원 (Apple + NVIDIA 추론 성능 향상)
- 26B 모델은 메모리 점유가 높아 비추천, 8B (Q4_K_M 양자화) 모델이 실사용 적합
- Launch Agent + 환경 변수로 재부팅 후 자동 로드 + 무기한 유지 가능
- 로컬 API (localhost:11434)로 OpenAI 호환 Chat Completion 요청 가능
Content
사전 준비
- Apple Silicon (M1~M5) 기반 Mac mini
- Gemma 4 (8B) 구동을 위해 최소 16GB 통합 메모리
- Homebrew 설치된 macOS 환경
Step 1 — Ollama 설치
brew install --cask ollama-app설치 후 /Applications/에 Ollama.app, /opt/homebrew/bin/ollama에 CLI 배치. 자동 업데이트 및 MLX 백엔드 포함.
Step 2 — Ollama 실행 및 확인
open -a Ollama
ollama listStep 3 — Gemma 4 모델 다운로드
ollama pull gemma4약 9.6GB 다운로드. 26B 모델은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생. 기본 8B (Q4_K_M 양자화) 모델 사용 권장.
Step 4 — 모델 테스트 및 GPU 가속 확인
ollama run gemma4:latest "Hello, what model are you?"
ollama ps
# 예시: CPU/GPU 비율 14%/86%Step 5 — 자동 실행 및 모델 유지 설정
5a. Ollama 앱 자동 실행
메뉴 막대 아이콘 → Launch at Login 활성화, 또는 System Settings > General > Login Items에서 수동 추가.
5b. Gemma 4 자동 프리로드
Launch Agent 생성 → 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지:
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
# (Launch Agent plist 생성)
EOF
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist5c. 모델 무기한 유지
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
# ~/.zshrc에 추가하여 재부팅 후에도 유지Step 6 — 설정 검증
ollama list
ollama ps
launchctl list | grep ollama
# 예상 출력: gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 ForeverAPI 접근
로컬 API 엔드포인트: http://localhost:11434
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}]}'유용한 명령어
| 명령어 | 설명 |
|---|---|
ollama list | 다운로드된 모델 목록 |
ollama ps | 실행 중인 모델 및 메모리 사용량 |
ollama run gemma4:latest | 대화형 실행 |
ollama stop gemma4:latest | 모델 언로드 |
관련 노트
- 2026-04-04-ollama-cloud-openclaw — Ollama 클라우드에서 OpenClaw 실행
- 2026-03-23-exo-local-ai-cluster — 맥북 여러 대 연결로 대형 모델 로컬 구동
- 2026-03-24-iphone-400b-llm — 엣지 디바이스에서 대형 모델 구동 (SSD→GPU 스트리밍)
- 2026-04-04-apfel-mac-builtin-ai — Mac에서 로컬 AI 활용