whichllm — 내 하드웨어에서 실제로 돌아가는 최고 성능 로컬 LLM 찾기
GeekNews가 소개한 whichllm은 파라미터 수보다 실측 벤치마크를 우선하는 로컬 LLM 추천 CLI다. 현재 머신의 GPU/CPU/RAM을 감지해, 실제로 돌릴 수 있는 HuggingFace 모델 후보를 랭킹으로 제시한다.
개요
whichllm의 핵심 가치는 단순하다. 로컬 LLM 선택을 감각이나 커뮤니티 추천이 아니라 내 하드웨어에서의 실제 성능으로 바꾼다. NVIDIA, AMD, Apple Silicon, CPU-only를 모두 지원하면서, 현재 시스템 조건에 맞는 모델군을 찾아준다.
이 접근은 “가장 큰 모델”보다 “지금 내 환경에서 가장 잘 도는 모델”이 더 중요할 때 특히 유용하다. 로컬 추론, 오프라인 작업, Apple Silicon 튜닝, VRAM 제약 환경에서 선택 비용을 줄여준다.
핵심 포인트
- benchmark-first: 파라미터 수가 아니라 실측 벤치마크 기준
- hardware-aware: GPU / CPU / RAM 자동 감지
- model ranking: HuggingFace 모델 중 적합한 후보를 우선순위로 제시
- broad support: NVIDIA, AMD, Apple Silicon, CPU-only 지원
- CLI workflow: 설치 후 터미널에서 바로 비교·선택 가능
왜 중요한가
로컬 LLM 생태계는 선택지가 많지만, 실제 운영에서는 하드웨어 제약이 더 중요하다. whichllm은 그 선택을 더 기계적으로 만들어서, ollama나 2026-05-12-llama-cpp-ollama-lmstudio-rapid-mlx-comparison 같은 실행 스택 비교와 잘 맞는다.
또한 Apple Silicon 쪽에서는 2026-05-12-rapid-mlx-apple-silicon-local-ai-engine나 2026-04-27-mac-96gb-llm-recommendation처럼 “무엇을 어떻게 돌릴지”를 정리하는 노트와 함께 보면 선택이 빨라진다.
Sources
- GeekNews: https://news.hada.io/topic?id=29613
- GeekNews item: whichllm — 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기
Related Notes
- 2026-05-12-llama-cpp-ollama-lmstudio-rapid-mlx-comparison — 로컬 LLM 실행 스택 비교
- 2026-05-12-rapid-mlx-apple-silicon-local-ai-engine — Apple Silicon 전용 로컬 AI 엔진
- 2026-04-27-mac-96gb-llm-recommendation — 고RAM Mac에서의 로컬 LLM 선택 기준
- ollama — 로컬 추론 런타임
- local-llm — 로컬 LLM 개념 페이지
- moc-ai-models — AI 모델 MOC
- moc-dev-tools — Dev Tools MOC의 로컬 AI & 하드웨어 섹션