iPhone 17 Pro에서 400B LLM 실행하기
Hacker News 토론: SSD에서 GPU로 직접 스트리밍하여 iPhone에서 초거대 모델 실행.
핵심 기술
- LLM in a Flash: Apple의 2023년 논문 기반
- SSD에서 GPU로 직접 weight 스트리밍
- RAM 용량 제한을 스토리지로 우회
Qwen3.5-397B-A17B
| 항목 | 내용 |
|---|---|
| 전체 파라미터 | 397B (400B급) |
| 활성 파라미터 | 17B |
| 실제 동작 | ~80B 모델 수준 |
| 세계 지식 | 400B 모델 수준 |
MoE 구조라 실제 추론 시 17B 파라미터만 활성화. “400B 모델”이라는 표현은 과장 광고라는 의견도 있음.
현실적 제약
| 문제 | 내용 |
|---|---|
| RAM | iPhone Pro는 12GB로 제한 |
| 과열 | 몇 초 만에 쓰로틀링 |
| 메모리 대역폭 | 턱없이 부족 |
| 전력 소모 | 모바일에 부적합 |
커뮤니티 의견
- 긍정: “llama.c 처음 나왔을 때 같은 흥분”, “주머니 속 완전한 컴퓨터”
- 현실적: “15~20년 걸릴 것”, “실용적이지 않음”, “특정 용도 소형 모델 파인튜닝이 낫다”
- 미래: “새로운 알고리즘과 맞춤형 칩 설계 필요”, “현재 Transformer 구조로는 한계 명확”
관련 프로젝트
- flash-moe iOS App
- anemll - iPhone용 OpenClaw 구동 버전도 공개
의미
기술적으로 “가능”하지만 실용성은 아직 없음. 모바일 AI의 미래는 새로운 아키텍처 + 맞춤형 칩에 달려 있음.
Related
- 원문: https://news.hada.io/topic?id=27788
- Hacker News: https://news.ycombinator.com/item?id=47490070
- LLM in a Flash 논문: https://arxiv.org/abs/2312.11514