Local LLM Formats 비교 — MLX vs GGUF vs nvfp

로컬 LLM 추론 시 주요 포맷(MLX, GGUF, nvfp)의 장단점 정리

MLX (Apple Silicon 전용)

항목내용
지원 플랫폼Apple Silicon (M1/M2/M3/M4) 네이티브
속도맥에서 가장 빠름 (GGUF 대비 ~30% 우위)
양자화 손실큼 — 6bit 이상 권장
메모리 효율Apple Unified Memory 활용 최적화

적합 용도: 맥에서日常 추론, 빠른 프로토타이핑

GGUF (범용)

항목내용
지원 플랫폼범용 (맥, 리눅스, 윈도우, CPU/GPU)
속도맥에서 MLX보다 ~30% 느림
양자화 손실적을다 — 낮은 bit에서도 품질 유지
메모리 효율양자화 레벨에 따라 유연하게 조절 가능

적합 용도: 맥 외 환경, 양자화 품질 민감한 태스크, 범용 배포

nvfp (NVIDIA GPU)

항목내용
지원 플랫폼NVIDIA GPU (CUDA)
속도GPU 가속으로 매우 빠름
양자화 손실양자화 방식에 따라 상이
메모리 효율GPU VRAM 크기에 의존

적합 용도: NVIDIA GPU 보유 환경, 대량 추론

선택 가이드

맥 (Apple Silicon) + 빠른 추론 → MLX (6bit 이상)
맥 (품질 우선) or 범용 배포 → GGUF
NVIDIA GPU 있음 → nvfp 또는 GGUF (CUDA backend)