Ollama

로컬 LLM 추론 엔진. 원 커맨드로 대형 언어 모델을 다운로드·실행·서빙하며, OpenAI 호환 API를 제공하는 오픈소스 도구. Apple Silicon 최적화(MLX 백엔드)와 NVIDIA 가속을 모두 지원하며, 로컬 AI 에이전트 인프라의 핵심 백엔드로 널리 사용된다.

Overview

Ollama는 로컬 머신에서 LLM을 간편하게 실행할 수 있는 오픈소스 추론 엔진이다. 모델 다운로드(ollama pull), 실행(ollama run), 서빙(localhost:11434)을 단일 CLI로 처리하며, OpenAI 호환 Chat Completion API를 기본 제공한다. macOS(특히 Apple Silicon), Linux, Windows를 지원한다.

핵심 특성

  • 원 커맨드 실행: ollama pull gemma4ollama run gemma4로 즉시 대화 가능
  • OpenAI 호환 API: http://localhost:11434/v1/chat/completions 엔드포인트로 기존 도구와 즉시 연동
  • Apple Silicon 최적화: v0.19+에서 MLX 백엔드와 NVFP4 포맷 지원, GPU 가속율 86% 달성
  • 양자화 기본 지원: Q4_K_M 등 4-bit 양자화 모델을 기본 제공하여 메모리 효율 극대화
  • 모델 메모리 유지: OLLAMA_KEEP_ALIVE=-1 설정으로 모델을 무기한 메모리에 상주 가능
  • 클라우드 서비스: Ollama Cloud($20/월)로 로컬 하드웨어 없이 클라우드에서 오픈 모델 실행

설치

# macOS (Homebrew)
brew install --cask ollama-app
 
# Linux
curl -fsSL https://ollama.com/install.sh | sh

주요 명령어

명령어설명
ollama pull <model>모델 다운로드
ollama run <model>대화형 실행
ollama list다운로드된 모델 목록
ollama ps실행 중인 모델 및 메모리/CPU/GPU 사용량
ollama stop <model>모델 언로드
ollama launch openclawOllama Cloud에서 OpenClaw 실행

API 예시

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}]}'

Key Features

1. 로컬 LLM 백엔드로서의 역할

Ollama는 다양한 AI 에이전트 프레임워크의 로컬 LLM 백엔드로 사용된다:

  • openclaw: ollama launch openclaw 한 줄로 로컬 AI 에이전트 구동. Gemma 4, kimi-k2.5, glm-5, minimax-m2.7 지원
  • 2026-03-22-openjarvis: Stanford Hazy Research의 로컬 AI 프레임워크에서 10개 엔진 백엔드 중 하나로 채택
  • 2026-04-05-claude-code-router: Claude Code Router에서 Ollama를 라우팅 대상 프로바이더로 지원 (background 작업을 ollama,qwen2.5-coder:latest로 라우팅하는 예시)

2. Apple Silicon 로컬 실행

2026-04-05-mac-mini-ollama-gemma4-setup에 상세 가이드가 정리되어 있다:

  • Apple Silicon (M1~M5) Mac mini + 16GB 통합 메모리 환경에서 안정 동작
  • Gemma 4 8B (Q4_K_M) 모델: 약 9.6GB 메모리 점유, CPU/GPU 비율 14%/86%
  • Gemma 4 26B 모델: 24GB 메모리 대부분 점유로 시스템 응답 저하 → 8B 권장
  • Launch Agent로 재부팅 후 자동 로드 + 무기한 유지 설정 가능

3. Ollama Cloud

2026-04-04-ollama-cloud-openclaw에 따르면:

  • $20/월 플랜으로 대부분의 일상적 AI 에이전트 사용 충분
  • 지원 모델: kimi-k2.5:cloud, glm-5:cloud, minimax-m2.7:cloud
  • Anthropic/OpenAI API 키 없이도 OpenClaw를 클라우드에서 실행 가능
  • ollama launch openclaw 한 줄 명령어로 즉시 실행

4. Gemma 4와의 공식 연동

2026-04-08-gemma4-openclaw-ollama-3steps에서 Google Gemma 공식 X 계정이 3단계 가이드를 발표:

  1. Ollama 설치 (ollama.com/download)
  2. Gemma 4 26B A4B 다운로드
  3. OpenClaw 실행 (Gemma 4를 백엔드로 자동 구동)

26B A4B (26B total, 4B active) MoE 모델은 능력/속도 밸런스가 우수하여 로컬 에이전트 용도로 적합.

5. 에이전트 생태계 내 위치

2026-03-21-90-ai-tools-that-matter에서 “Local AI” 카테고리 1위로 선정:

  • “원 커맨드로 로컬 LLM 실행” — 로컬 AI 인프라의 핵심 도구
  • Open WebUI, LlamaFile, Unsloth와 함께 로컬 AI 생태계 구성

6. 대안 도구와의 관계

  • 2026-04-10-lm-studio-headless-claude-code-gemma4: LM Studio 0.4.0이 Anthropic 호환 엔드포인트(POST /v1/messages)를 제공하여 Claude Code와 직접 연결 가능. Ollama는 OpenAI 호환 엔드포인트 제공
  • Ollama vs LM Studio: Ollama는 CLI 중심의 가벼운 접근, LM Studio는 GUI + 헤드리스 CLI 모두 지원하며 Anthropic 호환 엔드포인트 추가 기능 제공