Context Vault

❯

❯

❯

LM Studio 헤드리스 CLI — Claude Code를 로컬 모델로 구동

LM Studio 헤드리스 CLI — Claude Code를 로컬 모델로 구동

2026년 4월 10일3 min read

local-ai
claude-code
ai-models
cli
apple-silicon

LM Studio 헤드리스 CLI — Claude Code를 로컬 모델로 구동

API 비용 0, 데이터는 기기 밖으로 나가지 않음. Gemma 4 26B-A4B를 Claude Code와 연결한 실전 결과.

핵심 내용

George Liu가 MacBook Pro (M4 Pro, 48GB)에서 Gemma 4 26B-A4B를 LM Studio 0.4.0으로 구동하고 Claude Code와 연결.

성능

속도: 초당 51 토큰
메모리: 48K 컨텍스트 기준 약 21GB
비용: 0 (완전 로컬)
실용성: 코드 리뷰, 단일 파일 수정, 반복적 탐색 작업에서 충분

Gemma 4 26B-A4B — MoE의 역설

Mixture-of-Experts 아키텍처: 128개 전문가 중 토큰당 8개만 활성화
전체 26B 파라미터, 추론 시 실제 계산은 약 3.8B
MMLU Pro 82.6% (동급 31B 풀 덴스 85.2%에 근접)
Elo ~1441 (400B+ 대형 모델과 경쟁 수준)

LM Studio 0.4.0 주요 기능

llmster 데몬 — GUI 없이 백그라운드에서 모델 로딩·추론 관리
병렬 요청 처리 — continuous batching으로 동시 요청을 단일 연산으로 처리
Anthropic 호환 엔드포인트 — POST /v1/messages 형식으로 로컬 모델을 Anthropic API처럼 호출
MCP 통합 — 로컬 Model Context Protocol 지원
lms CLI — 터미널만으로 모델 다운로드, 로드, 서버 실행

Claude Code 연결 방법

ANTHROPIC_BASE_URL을 로컬 서버로, 모델명을 Gemma 4로 지정하는 셸 함수로 Claude Code 요청을 로컬로 우회.

비슷한 MoE 로컬 모델들

Qwen 3.5 35B-A3B
GLM 4.7 Flash

관련 노트

Mac mini Ollama + Gemma 4 설정
Gemma 4 + OpenClaw 3단계 로컬 구동
VibeProxy — Claude Code에 GPT-5.4 연결

Sources

AI Sparkup: https://aisparkup.com/posts/10876
원문 (George Liu): https://ai.georgeliu.com
Google Gemma 4 Model Card
LM Studio: https://lmstudio.ai

그래프 뷰

LM Studio 헤드리스 CLI — Claude Code를 로컬 모델로 구동
핵심 내용
성능
Gemma 4 26B-A4B — MoE의 역설
LM Studio 0.4.0 주요 기능
Claude Code 연결 방법
비슷한 MoE 로컬 모델들
관련 노트
Sources

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community