한 줄 요약

M4/M5 Pro/Max Mac 2~4대를 썬더볼트 5 케이블로 연결하고 오픈소스 Exo로 122B 모델을 초당 52 토큰으로 로컬 구동.

핵심 아이디어

비싼 GPU 서버 없이 책상 위 Mac 몇 대만으로 개인용 AI 데이터 센터 구축 가능. 모든 데이터가 외부로 나가지 않아 보안 검토 절차 불필요.

준비물

  • M4 또는 M5 Pro/Max 칩 Mac 2~4대 (macOS 26.2 이상)
  • 썬더볼트 5 데이터 케이블
  • 오픈소스 Exo (exo-explore/exo)

세팅

Mac들을 썬더볼트 케이블로 연결 → Exo 설치 → 모델 다운로드 후 실행. Exo가 자동으로 기기를 탐지하고 텐서 병렬 처리 시작. OpenAI 호환 로컬 API 자동 생성.

주의 사항

  • 반드시 썬더볼트 5 규격 케이블 사용 (낮은 대역폭 케이블 → 병목 발생)
  • 연결된 Mac들의 통합 메모리 합 > 모델 용량 필수 (스왑 발생 시 프로세스 중단)

실제 성능

환경모델속도
Mac Studio M4 Max × 2Qwen3.5-122B52 tokens/s
Mac Studio M4 Max × 280B 모델70~80 tokens/s