LLM Wiki

태그: inference

5건의 항목

  • 2026년 5월 06일

    6X Dflash Gemma 4 — Gemma 4 추론 6배 가속

    • ai-models
    • gemma4
    • inference
    • dflash
    • local-llm
    • optimization
  • 2026년 4월 24일

    LLM 모델 크기 22% 줄인 Cloudflare, 품질은 그대로인 무손실 압축 원리

    • ai-models
    • cloudflare
    • inference
    • open-source
    • gpu
  • 2026년 4월 19일

    dflash-mlx — Apple Silicon DFlash 추론 (MLX)

    • ai-models
    • apple-silicon
    • open-source
    • mlx
    • speculative-decoding
    • inference
  • 2026년 4월 13일

    Flash-MoE — 순수 C/Metal로 M3 Max에서 397B MoE 모델 실행

    • apple-silicon
    • metal
    • moe
    • inference
    • quantization
    • on-device-ai
  • 2026년 3월 22일

    Cloudflare Workers AI - 대형 모델 지원 (Kimi K2.5)

    • cloudflare
    • workers-ai
    • llm
    • inference

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community