llama.cpp
로컬에서 LLM을 추론하기 위한 C/C++ 기반 경량 엔진. GPU 가속, 양자화, 고성능 추론을 지원하며, 소비자급 하드웨어에서도 LLM을 구동할 수 있게 해준다.
주요 특징
- 경량: 의존성 최소화, 다양한 플랫폼 지원
- 양자화(Quantization): GGUF 포맷으로 모델 압축 → 제한된 VRAM에서도 구동
- GPU 가속: CUDA, Metal, Vulkan 지원
- 서버 모드: HTTP API로 에이전트와 연결 가능
사용 사례
@vmiss33은 RTX 4070 8GB 노트북에서 llama.cpp로 Qwen 3.5 9B quant를 64k context로 서빙하여 Hermes Agent에 연결.