LLM Wiki
Search
검색
다크 모드
라이트 모드
탐색기
태그: inference
5건의 항목
2026년 5월 06일
6X Dflash Gemma 4 — Gemma 4 추론 6배 가속
ai-models
gemma4
inference
dflash
local-llm
optimization
2026년 4월 24일
LLM 모델 크기 22% 줄인 Cloudflare, 품질은 그대로인 무손실 압축 원리
ai-models
cloudflare
inference
open-source
gpu
2026년 4월 19일
dflash-mlx — Apple Silicon DFlash 추론 (MLX)
ai-models
apple-silicon
open-source
mlx
speculative-decoding
inference
2026년 4월 13일
Flash-MoE — 순수 C/Metal로 M3 Max에서 397B MoE 모델 실행
apple-silicon
metal
moe
inference
quantization
on-device-ai
2026년 3월 22일
Cloudflare Workers AI - 대형 모델 지원 (Kimi K2.5)
cloudflare
workers-ai
llm
inference