한 줄 요약
M4/M5 Pro/Max Mac 2~4대를 썬더볼트 5 케이블로 연결하고 오픈소스 Exo로 122B 모델을 초당 52 토큰으로 로컬 구동.
핵심 아이디어
비싼 GPU 서버 없이 책상 위 Mac 몇 대만으로 개인용 AI 데이터 센터 구축 가능. 모든 데이터가 외부로 나가지 않아 보안 검토 절차 불필요.
준비물
- M4 또는 M5 Pro/Max 칩 Mac 2~4대 (macOS 26.2 이상)
- 썬더볼트 5 데이터 케이블
- 오픈소스 Exo (exo-explore/exo)
세팅
Mac들을 썬더볼트 케이블로 연결 → Exo 설치 → 모델 다운로드 후 실행. Exo가 자동으로 기기를 탐지하고 텐서 병렬 처리 시작. OpenAI 호환 로컬 API 자동 생성.
주의 사항
- 반드시 썬더볼트 5 규격 케이블 사용 (낮은 대역폭 케이블 → 병목 발생)
- 연결된 Mac들의 통합 메모리 합 > 모델 용량 필수 (스왑 발생 시 프로세스 중단)
실제 성능
| 환경 | 모델 | 속도 |
|---|---|---|
| Mac Studio M4 Max × 2 | Qwen3.5-122B | 52 tokens/s |
| Mac Studio M4 Max × 2 | 80B 모델 | 70~80 tokens/s |