llama.cpp / Ollama / LM Studio / Rapid-MLX 비교 노트
로컬 LLM 실행면에서 가장 많이 헷갈리는 4가지를 정리한 비교 메모. 핵심은 “무엇이 제일 빠른가”보다 “어떤 작업 흐름에 맞는가”다.
한 줄 요약
- llama.cpp: 가장 바닥에 가까운 엔진. 제어권과 이식성이 강점.
- Ollama: 가장 쉽게 시작하는 CLI/서버 패키징. 진입장벽이 낮다.
- LM Studio: 가장 편한 GUI. 모델 탐색·테스트·전환에 강하다.
- Rapid-MLX: Apple Silicon에서 MLX/Metal 최적화 속도에 집중한 전용 경로.
성격 차이
llama.cpp
- C/C++ 기반 로컬 추론 엔진
- GGUF, 서버 모드, 다양한 GPU 백엔드 지원
- 장점: 낮은 레이어, 세밀한 제어, 폭넓은 호환성
- 단점: 초보자에게는 진입장벽이 높음
Ollama
- 모델 다운로드·실행·서빙을 한 번에 묶은 CLI 중심 도구
- 장점: 설치와 사용이 쉽고, OpenAI 호환 API로 연결이 편함
- 단점: 추상화가 강하고, 세밀한 조정은 불편할 수 있음
LM Studio
- llama.cpp 기반의 GUI 도구
- 장점: 모델 다운로드, 교체, 실험이 가장 직관적
- 단점: 서버/자동화만 보려는 사람에게는 GUI가 과할 수 있음
Rapid-MLX
- Apple Silicon + MLX + Metal에 맞춘 로컬 추론 엔진
- 장점: 맥에서의 체감 속도, Apple Silicon 최적화
- 단점: 범용성보다 플랫폼 특화에 가깝다
선택 기준
- 자동화/재현성/최소 의존성이 중요하면: llama-cpp
- 그냥 빨리 시작해서 API 서버까지 바로 붙이고 싶으면: ollama
- GUI로 모델 여러 개를 오가며 테스트하고 싶으면: lmstudio
- Apple Silicon에서 속도와 MLX 최적화를 더 보고 싶으면: 2026-05-12-rapid-mlx-apple-silicon-local-ai-engine
기준 추천
처럼 맥 로컬 LLM 실험 + 에이전트 연결 + 자동화 비교를 같이 보는 경우:
- 기본 백엔드 비교용:
llama.cpp - 가장 손쉬운 운용:
Ollama - 대화형 검증/모델 탐색:
LM Studio - Apple Silicon 성능 후보:
Rapid-MLX
즉, 네 개는 서로 완전한 대체재라기보다:
llama.cpp는 엔진Ollama는 편의 레이어LM Studio는 GUI 작업면Rapid-MLX는 Apple Silicon 특화 최적화 경로
왜 묶어 두는가
이 조합을 한 페이지에 같이 두면, 이후에 다음 질문에 바로 답하기 쉽다.
- “맥에서 로컬 모델 돌릴 때 뭘 먼저 깔지?”
- “에이전트에 붙일 백엔드는 뭘로 갈지?”
- “GUI로 볼지, CLI/API로 볼지?”
- “Apple Silicon에서 MLX 쪽을 볼 가치가 있는지?”