iPhone 17 Pro에서 400B LLM 실행하기

Hacker News 토론: SSD에서 GPU로 직접 스트리밍하여 iPhone에서 초거대 모델 실행.

핵심 기술

LLM in a Flash: Apple의 2023년 논문 기반
SSD에서 GPU로 직접 weight 스트리밍
RAM 용량 제한을 스토리지로 우회

Qwen3.5-397B-A17B

항목	내용
전체 파라미터	397B (400B급)
활성 파라미터	17B
실제 동작	~80B 모델 수준
세계 지식	400B 모델 수준

MoE 구조라 실제 추론 시 17B 파라미터만 활성화. “400B 모델”이라는 표현은 과장 광고라는 의견도 있음.

현실적 제약

문제	내용
RAM	iPhone Pro는 12GB로 제한
과열	몇 초 만에 쓰로틀링
메모리 대역폭	턱없이 부족
전력 소모	모바일에 부적합

커뮤니티 의견

긍정: “llama.c 처음 나왔을 때 같은 흥분”, “주머니 속 완전한 컴퓨터”
현실적: “15~20년 걸릴 것”, “실용적이지 않음”, “특정 용도 소형 모델 파인튜닝이 낫다”
미래: “새로운 알고리즘과 맞춤형 칩 설계 필요”, “현재 Transformer 구조로는 한계 명확”

관련 프로젝트

flash-moe iOS App
anemll - iPhone용 OpenClaw 구동 버전도 공개

의미

기술적으로 “가능”하지만 실용성은 아직 없음. 모바일 AI의 미래는 새로운 아키텍처 + 맞춤형 칩에 달려 있음.

원문: https://news.hada.io/topic?id=27788
Hacker News: https://news.ycombinator.com/item?id=47490070
LLM in a Flash 논문: https://arxiv.org/abs/2312.11514