LLM Wiki

❯

❯

llama.cpp

2026년 5월 05일2 min read

entity
dev-tools
local-inference
open-source
cpp
gpu

llama.cpp

로컬에서 LLM을 추론하기 위한 C/C++ 기반 경량 엔진. GPU 가속, 양자화, 고성능 추론을 지원하며, 소비자급 하드웨어에서도 LLM을 구동할 수 있게 해준다.

주요 특징

경량: 의존성 최소화, 다양한 플랫폼 지원
양자화(Quantization): GGUF 포맷으로 모델 압축 → 제한된 VRAM에서도 구동
GPU 가속: CUDA, Metal, Vulkan 지원
서버 모드: HTTP API로 에이전트와 연결 가능

사용 사례

@vmiss33은 RTX 4070 8GB 노트북에서 llama.cpp로 Qwen 3.5 9B quant를 64k context로 서빙하여 Hermes Agent에 연결.

크로스 레퍼런스

lmstudio — LM Studio (llama.cpp 기반 GUI)
ollama — Ollama 로컬 추론
2026-05-12-llama-cpp-ollama-lmstudio-rapid-mlx-comparison — 4개 로컬 LLM 실행면 비교 노트
qwen — Qwen 모델 패밀리

그래프 뷰

llama.cpp
주요 특징
사용 사례
크로스 레퍼런스

백링크

llama.cpp / Ollama / LM Studio / Rapid-MLX 비교 노트
LM Studio
Qwen
index
Hermes Agent 활용 사례와 나만의 사용법 (@vmiss33)

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community