Exo로 맥북 여러 대 연결해 122B AI 모델 로컬 구동

맥북 두 대를 썬더볼트 케이블 하나로 연결했더니, 122B 초거대 AI 모델이 초당 52 토큰 속도로 로컬에서 돌아갑니다.

준비물

Exo가 자동으로 연결된 기기들을 찾아내고, 모델을 분해해 텐서 병렬 처리를 시작합니다. OpenAI 인터페이스와 호환되는 로컬 API도 자동으로 열립니다.

세팅	모델	속도
Mac Studio M4 Max 2대	Qwen3.5-122B	52 토큰/초
Mac Studio M4 Max 2대	80B 크기 모델	70~80 토큰/초

거대한 서버 장비나 복잡한 네트워크 설정 없이, 선 하나만으로 여러 기기의 성능을 하나로 통합하는 기술입니다. 사내 보안 때문에 대형 AI 모델 도입을 망설이던 환경이나 개인 연구자들의 하드웨어 구축 방식을 완전히 바꿀 수 있습니다.