LM Studio 헤드리스 CLI — Claude Code를 로컬 모델로 구동
API 비용 0, 데이터는 기기 밖으로 나가지 않음. Gemma 4 26B-A4B를 Claude Code와 연결한 실전 결과.
핵심 내용
George Liu가 MacBook Pro (M4 Pro, 48GB)에서 Gemma 4 26B-A4B를 LM Studio 0.4.0으로 구동하고 Claude Code와 연결.
성능
- 속도: 초당 51 토큰
- 메모리: 48K 컨텍스트 기준 약 21GB
- 비용: 0 (완전 로컬)
- 실용성: 코드 리뷰, 단일 파일 수정, 반복적 탐색 작업에서 충분
Gemma 4 26B-A4B — MoE의 역설
- Mixture-of-Experts 아키텍처: 128개 전문가 중 토큰당 8개만 활성화
- 전체 26B 파라미터, 추론 시 실제 계산은 약 3.8B
- MMLU Pro 82.6% (동급 31B 풀 덴스 85.2%에 근접)
- Elo ~1441 (400B+ 대형 모델과 경쟁 수준)
LM Studio 0.4.0 주요 기능
- llmster 데몬 — GUI 없이 백그라운드에서 모델 로딩·추론 관리
- 병렬 요청 처리 — continuous batching으로 동시 요청을 단일 연산으로 처리
- Anthropic 호환 엔드포인트 —
POST /v1/messages형식으로 로컬 모델을 Anthropic API처럼 호출 - MCP 통합 — 로컬 Model Context Protocol 지원
lmsCLI — 터미널만으로 모델 다운로드, 로드, 서버 실행
Claude Code 연결 방법
ANTHROPIC_BASE_URL을 로컬 서버로, 모델명을 Gemma 4로 지정하는 셸 함수로 Claude Code 요청을 로컬로 우회.
비슷한 MoE 로컬 모델들
- Qwen 3.5 35B-A3B
- GLM 4.7 Flash
관련 노트
Sources
- AI Sparkup: https://aisparkup.com/posts/10876
- 원문 (George Liu): https://ai.georgeliu.com
- Google Gemma 4 Model Card
- LM Studio: https://lmstudio.ai