Exo로 맥북 여러 대 연결해 122B AI 모델 로컬 구동
맥북 두 대를 썬더볼트 케이블 하나로 연결했더니, 122B 초거대 AI 모델이 초당 52 토큰 속도로 로컬에서 돌아갑니다.
준비물
- M4 또는 M5 Pro/Max 칩이 탑재된 Mac 2~4대 (macOS 26.2 이상)
- 썬더볼트 5 데이터 케이블
- 깃허브 오픈소스 ‘Exo’ (exo-explore/exo)
세팅 과정
- Mac 기기들을 썬더볼트 케이블로 서로 연결
- Exo 설치
- 원하는 모델 다운로드 후 실행
Exo가 자동으로 연결된 기기들을 찾아내고, 모델을 분해해 텐서 병렬 처리를 시작합니다. OpenAI 인터페이스와 호환되는 로컬 API도 자동으로 열립니다.
주의 사항
- 반드시 썬더볼트 5 규격 케이블 사용 (대역폭 낮은 케이블 사용 시 통신 병목 발생)
- 연결된 모든 Mac의 통합 메모리 합이 모델 용량을 초과해야 함 (메모리 스왑 발생 시 전체 프로세스 멈춤)
실제 테스트 수치
| 세팅 | 모델 | 속도 |
|---|---|---|
| Mac Studio M4 Max 2대 | Qwen3.5-122B | 52 토큰/초 |
| Mac Studio M4 Max 2대 | 80B 크기 모델 | 70~80 토큰/초 |
핵심 장점
- 모든 데이터가 외부로 나가지 않음 (완전한 프라이버시)
- 보안 검토 절차 제거로 프로젝트 지연 시간 0
- 클라우드 서비스 비용 0원
의미
거대한 서버 장비나 복잡한 네트워크 설정 없이, 선 하나만으로 여러 기기의 성능을 하나로 통합하는 기술입니다. 사내 보안 때문에 대형 AI 모델 도입을 망설이던 환경이나 개인 연구자들의 하드웨어 구축 방식을 완전히 바꿀 수 있습니다.
관련 노트
- 2026-03-27-colima-container-runtime-macos-linux - macOS/Linux 컨테이너 런타임. GPU 가속 컨테이너를 지원하여 AI 워크로드 실행 가능. Exo와 함께 로컬 AI 인프라 구성 시 고려 가능.