Local LLM Formats 비교 — MLX vs GGUF vs nvfp

로컬 LLM 추론 시 주요 포맷(MLX, GGUF, nvfp)의 장단점 정리

MLX (Apple Silicon 전용)

항목	내용
지원 플랫폼	Apple Silicon (M1/M2/M3/M4) 네이티브
속도	맥에서 가장 빠름 (GGUF 대비 ~30% 우위)
양자화 손실	큼 — 6bit 이상 권장
메모리 효율	Apple Unified Memory 활용 최적화

적합 용도: 맥에서日常 추론, 빠른 프로토타이핑

GGUF (범용)

항목	내용
지원 플랫폼	범용 (맥, 리눅스, 윈도우, CPU/GPU)
속도	맥에서 MLX보다 ~30% 느림
양자화 손실	적을다 — 낮은 bit에서도 품질 유지
메모리 효율	양자화 레벨에 따라 유연하게 조절 가능

적합 용도: 맥 외 환경, 양자화 품질 민감한 태스크, 범용 배포

nvfp (NVIDIA GPU)

항목	내용
지원 플랫폼	NVIDIA GPU (CUDA)
속도	GPU 가속으로 매우 빠름
양자화 손실	양자화 방식에 따라 상이
메모리 효율	GPU VRAM 크기에 의존

적합 용도: NVIDIA GPU 보유 환경, 대량 추론

선택 가이드

맥 (Apple Silicon) + 빠른 추론 → MLX (6bit 이상)
맥 (품질 우선) or 범용 배포 → GGUF
NVIDIA GPU 있음 → nvfp 또는 GGUF (CUDA backend)

2026-04-22-qwen3-6-27b-open-source-agentic-coding — Qwen3.6-27B의 로컬 실행 가이드
2026-04-14-gemma4-codex-cli-local-model — Gemma4 로컬 Codex CLI 실행 관련