whichllm — 내 하드웨어에서 실제로 돌아가는 최고 성능 로컬 LLM 찾기

GeekNews가 소개한 whichllm은 파라미터 수보다 실측 벤치마크를 우선하는 로컬 LLM 추천 CLI다. 현재 머신의 GPU/CPU/RAM을 감지해, 실제로 돌릴 수 있는 HuggingFace 모델 후보를 랭킹으로 제시한다.

개요

whichllm의 핵심 가치는 단순하다. 로컬 LLM 선택을 감각이나 커뮤니티 추천이 아니라 내 하드웨어에서의 실제 성능으로 바꾼다. NVIDIA, AMD, Apple Silicon, CPU-only를 모두 지원하면서, 현재 시스템 조건에 맞는 모델군을 찾아준다.

이 접근은 “가장 큰 모델”보다 “지금 내 환경에서 가장 잘 도는 모델”이 더 중요할 때 특히 유용하다. 로컬 추론, 오프라인 작업, Apple Silicon 튜닝, VRAM 제약 환경에서 선택 비용을 줄여준다.

핵심 포인트

  • benchmark-first: 파라미터 수가 아니라 실측 벤치마크 기준
  • hardware-aware: GPU / CPU / RAM 자동 감지
  • model ranking: HuggingFace 모델 중 적합한 후보를 우선순위로 제시
  • broad support: NVIDIA, AMD, Apple Silicon, CPU-only 지원
  • CLI workflow: 설치 후 터미널에서 바로 비교·선택 가능

왜 중요한가

로컬 LLM 생태계는 선택지가 많지만, 실제 운영에서는 하드웨어 제약이 더 중요하다. whichllm은 그 선택을 더 기계적으로 만들어서, ollama2026-05-12-llama-cpp-ollama-lmstudio-rapid-mlx-comparison 같은 실행 스택 비교와 잘 맞는다.

또한 Apple Silicon 쪽에서는 2026-05-12-rapid-mlx-apple-silicon-local-ai-engine2026-04-27-mac-96gb-llm-recommendation처럼 “무엇을 어떻게 돌릴지”를 정리하는 노트와 함께 보면 선택이 빨라진다.

Sources