Exo로 맥북 여러 대 연결해 122B AI 모델 로컬 구동

맥북 두 대를 썬더볼트 케이블 하나로 연결했더니, 122B 초거대 AI 모델이 초당 52 토큰 속도로 로컬에서 돌아갑니다.

준비물

  • M4 또는 M5 Pro/Max 칩이 탑재된 Mac 2~4대 (macOS 26.2 이상)
  • 썬더볼트 5 데이터 케이블
  • 깃허브 오픈소스 ‘Exo’ (exo-explore/exo)

세팅 과정

  1. Mac 기기들을 썬더볼트 케이블로 서로 연결
  2. Exo 설치
  3. 원하는 모델 다운로드 후 실행

Exo가 자동으로 연결된 기기들을 찾아내고, 모델을 분해해 텐서 병렬 처리를 시작합니다. OpenAI 인터페이스와 호환되는 로컬 API도 자동으로 열립니다.

주의 사항

  • 반드시 썬더볼트 5 규격 케이블 사용 (대역폭 낮은 케이블 사용 시 통신 병목 발생)
  • 연결된 모든 Mac의 통합 메모리 합이 모델 용량을 초과해야 함 (메모리 스왑 발생 시 전체 프로세스 멈춤)

실제 테스트 수치

세팅모델속도
Mac Studio M4 Max 2대Qwen3.5-122B52 토큰/초
Mac Studio M4 Max 2대80B 크기 모델70~80 토큰/초

핵심 장점

  • 모든 데이터가 외부로 나가지 않음 (완전한 프라이버시)
  • 보안 검토 절차 제거로 프로젝트 지연 시간 0
  • 클라우드 서비스 비용 0원

의미

거대한 서버 장비나 복잡한 네트워크 설정 없이, 선 하나만으로 여러 기기의 성능을 하나로 통합하는 기술입니다. 사내 보안 때문에 대형 AI 모델 도입을 망설이던 환경이나 개인 연구자들의 하드웨어 구축 방식을 완전히 바꿀 수 있습니다.


관련 노트