Local LLM Formats 비교 — MLX vs GGUF vs nvfp
로컬 LLM 추론 시 주요 포맷(MLX, GGUF, nvfp)의 장단점 정리
MLX (Apple Silicon 전용)
| 항목 | 내용 |
|---|---|
| 지원 플랫폼 | Apple Silicon (M1/M2/M3/M4) 네이티브 |
| 속도 | 맥에서 가장 빠름 (GGUF 대비 ~30% 우위) |
| 양자화 손실 | 큼 — 6bit 이상 권장 |
| 메모리 효율 | Apple Unified Memory 활용 최적화 |
적합 용도: 맥에서日常 추론, 빠른 프로토타이핑
GGUF (범용)
| 항목 | 내용 |
|---|---|
| 지원 플랫폼 | 범용 (맥, 리눅스, 윈도우, CPU/GPU) |
| 속도 | 맥에서 MLX보다 ~30% 느림 |
| 양자화 손실 | 적을다 — 낮은 bit에서도 품질 유지 |
| 메모리 효율 | 양자화 레벨에 따라 유연하게 조절 가능 |
적합 용도: 맥 외 환경, 양자화 품질 민감한 태스크, 범용 배포
nvfp (NVIDIA GPU)
| 항목 | 내용 |
|---|---|
| 지원 플랫폼 | NVIDIA GPU (CUDA) |
| 속도 | GPU 가속으로 매우 빠름 |
| 양자화 손실 | 양자화 방식에 따라 상이 |
| 메모리 효율 | GPU VRAM 크기에 의존 |
적합 용도: NVIDIA GPU 보유 환경, 대량 추론
선택 가이드
맥 (Apple Silicon) + 빠른 추론 → MLX (6bit 이상)
맥 (품질 우선) or 범용 배포 → GGUF
NVIDIA GPU 있음 → nvfp 또는 GGUF (CUDA backend)
Related Notes
- 2026-04-22-qwen3-6-27b-open-source-agentic-coding — Qwen3.6-27B의 로컬 실행 가이드
- 2026-04-14-gemma4-codex-cli-local-model — Gemma4 로컬 Codex CLI 실행 관련