llama.cpp / Ollama / LM Studio / Rapid-MLX 비교 노트

로컬 LLM 실행면에서 가장 많이 헷갈리는 4가지를 정리한 비교 메모. 핵심은 “무엇이 제일 빠른가”보다 “어떤 작업 흐름에 맞는가”다.

한 줄 요약

  • llama.cpp: 가장 바닥에 가까운 엔진. 제어권과 이식성이 강점.
  • Ollama: 가장 쉽게 시작하는 CLI/서버 패키징. 진입장벽이 낮다.
  • LM Studio: 가장 편한 GUI. 모델 탐색·테스트·전환에 강하다.
  • Rapid-MLX: Apple Silicon에서 MLX/Metal 최적화 속도에 집중한 전용 경로.

성격 차이

llama.cpp

  • C/C++ 기반 로컬 추론 엔진
  • GGUF, 서버 모드, 다양한 GPU 백엔드 지원
  • 장점: 낮은 레이어, 세밀한 제어, 폭넓은 호환성
  • 단점: 초보자에게는 진입장벽이 높음

Ollama

  • 모델 다운로드·실행·서빙을 한 번에 묶은 CLI 중심 도구
  • 장점: 설치와 사용이 쉽고, OpenAI 호환 API로 연결이 편함
  • 단점: 추상화가 강하고, 세밀한 조정은 불편할 수 있음

LM Studio

  • llama.cpp 기반의 GUI 도구
  • 장점: 모델 다운로드, 교체, 실험이 가장 직관적
  • 단점: 서버/자동화만 보려는 사람에게는 GUI가 과할 수 있음

Rapid-MLX

  • Apple Silicon + MLX + Metal에 맞춘 로컬 추론 엔진
  • 장점: 맥에서의 체감 속도, Apple Silicon 최적화
  • 단점: 범용성보다 플랫폼 특화에 가깝다

선택 기준

기준 추천

처럼 맥 로컬 LLM 실험 + 에이전트 연결 + 자동화 비교를 같이 보는 경우:

  1. 기본 백엔드 비교용: llama.cpp
  2. 가장 손쉬운 운용: Ollama
  3. 대화형 검증/모델 탐색: LM Studio
  4. Apple Silicon 성능 후보: Rapid-MLX

즉, 네 개는 서로 완전한 대체재라기보다:

  • llama.cpp엔진
  • Ollama편의 레이어
  • LM StudioGUI 작업면
  • Rapid-MLXApple Silicon 특화 최적화 경로

왜 묶어 두는가

이 조합을 한 페이지에 같이 두면, 이후에 다음 질문에 바로 답하기 쉽다.

  • “맥에서 로컬 모델 돌릴 때 뭘 먼저 깔지?”
  • “에이전트에 붙일 백엔드는 뭘로 갈지?”
  • “GUI로 볼지, CLI/API로 볼지?”
  • “Apple Silicon에서 MLX 쪽을 볼 가치가 있는지?”