LLM Wiki

태그: inference

5건의 항목

2026년 5월 06일
6X Dflash Gemma 4 — Gemma 4 추론 6배 가속
2026년 4월 24일
LLM 모델 크기 22% 줄인 Cloudflare, 품질은 그대로인 무손실 압축 원리
2026년 4월 19일
dflash-mlx — Apple Silicon DFlash 추론 (MLX)
2026년 4월 13일
Flash-MoE — 순수 C/Metal로 M3 Max에서 397B MoE 모델 실행
2026년 3월 22일
Cloudflare Workers AI - 대형 모델 지원 (Kimi K2.5)

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community