llama.cpp

로컬에서 LLM을 추론하기 위한 C/C++ 기반 경량 엔진. GPU 가속, 양자화, 고성능 추론을 지원하며, 소비자급 하드웨어에서도 LLM을 구동할 수 있게 해준다.

주요 특징

  • 경량: 의존성 최소화, 다양한 플랫폼 지원
  • 양자화(Quantization): GGUF 포맷으로 모델 압축 → 제한된 VRAM에서도 구동
  • GPU 가속: CUDA, Metal, Vulkan 지원
  • 서버 모드: HTTP API로 에이전트와 연결 가능

사용 사례

@vmiss33은 RTX 4070 8GB 노트북에서 llama.cpp로 Qwen 3.5 9B quant를 64k context로 서빙하여 Hermes Agent에 연결.

크로스 레퍼런스

  • lmstudio — LM Studio (llama.cpp 기반 GUI)
  • ollama — Ollama 로컬 추론
  • 2026-05-12-llama-cpp-ollama-lmstudio-rapid-mlx-comparison — 4개 로컬 LLM 실행면 비교 노트
  • qwen — Qwen 모델 패밀리