whichllm — 내 하드웨어에서 실제로 돌아가는 최고 성능 로컬 LLM 찾기

GeekNews가 소개한 whichllm은 파라미터 수보다 실측 벤치마크를 우선하는 로컬 LLM 추천 CLI다. 현재 머신의 GPU/CPU/RAM을 감지해, 실제로 돌릴 수 있는 HuggingFace 모델 후보를 랭킹으로 제시한다.

개요

whichllm의 핵심 가치는 단순하다. 로컬 LLM 선택을 감각이나 커뮤니티 추천이 아니라 내 하드웨어에서의 실제 성능으로 바꾼다. NVIDIA, AMD, Apple Silicon, CPU-only를 모두 지원하면서, 현재 시스템 조건에 맞는 모델군을 찾아준다.

이 접근은 “가장 큰 모델”보다 “지금 내 환경에서 가장 잘 도는 모델”이 더 중요할 때 특히 유용하다. 로컬 추론, 오프라인 작업, Apple Silicon 튜닝, VRAM 제약 환경에서 선택 비용을 줄여준다.

핵심 포인트

benchmark-first: 파라미터 수가 아니라 실측 벤치마크 기준
hardware-aware: GPU / CPU / RAM 자동 감지
model ranking: HuggingFace 모델 중 적합한 후보를 우선순위로 제시
broad support: NVIDIA, AMD, Apple Silicon, CPU-only 지원
CLI workflow: 설치 후 터미널에서 바로 비교·선택 가능

왜 중요한가

로컬 LLM 생태계는 선택지가 많지만, 실제 운영에서는 하드웨어 제약이 더 중요하다. whichllm은 그 선택을 더 기계적으로 만들어서, ollama나 2026-05-12-llama-cpp-ollama-lmstudio-rapid-mlx-comparison 같은 실행 스택 비교와 잘 맞는다.

또한 Apple Silicon 쪽에서는 2026-05-12-rapid-mlx-apple-silicon-local-ai-engine나 2026-04-27-mac-96gb-llm-recommendation처럼 “무엇을 어떻게 돌릴지”를 정리하는 노트와 함께 보면 선택이 빨라진다.

Sources

GeekNews: https://news.hada.io/topic?id=29613
GeekNews item: whichllm — 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기

2026-05-12-llama-cpp-ollama-lmstudio-rapid-mlx-comparison — 로컬 LLM 실행 스택 비교
2026-05-12-rapid-mlx-apple-silicon-local-ai-engine — Apple Silicon 전용 로컬 AI 엔진
2026-04-27-mac-96gb-llm-recommendation — 고RAM Mac에서의 로컬 LLM 선택 기준
ollama — 로컬 추론 런타임
local-llm — 로컬 LLM 개념 페이지
moc-ai-models — AI 모델 MOC
moc-dev-tools — Dev Tools MOC의 로컬 AI & 하드웨어 섹션

LLM Wiki

탐색기

whichllm — 내 하드웨어에서 실제로 돌아가는 최고 성능 로컬 LLM 찾기

whichllm — 내 하드웨어에서 실제로 돌아가는 최고 성능 로컬 LLM 찾기

개요

핵심 포인트

왜 중요한가

Sources

그래프 뷰

목차

백링크

LLM Wiki

탐색기

whichllm — 내 하드웨어에서 실제로 돌아가는 최고 성능 로컬 LLM 찾기

whichllm — 내 하드웨어에서 실제로 돌아가는 최고 성능 로컬 LLM 찾기

개요

핵심 포인트

왜 중요한가

Sources

Related Notes

그래프 뷰

목차

백링크