LLM 모델 크기 22% 줄인 Cloudflare, 품질은 그대로인 무손실 압축 원리

Cloudflare의 Unweight는 LLM 추론용 무손실 압축 시스템으로, 품질 손실 없이 모델 크기를 줄이는 방법을 제시한다.

핵심 요약

AI Sparkup의 요약 기준으로, Cloudflare는 Unweight라는 시스템을 통해 LLM 가중치를 최대 22%까지 압축하면서도 출력 결과를 비트 단위까지 동일하게 유지한다고 주장한다. 핵심 아이디어는 BF16 값의 지수 바이트(exponent byte) 분포가 매우 편향되어 있다는 점을 활용하는 것이다.

어떻게 압축하나

  • BF16 가중치의 부호/가수는 건드리지 않는다.
  • 지수 바이트에만 선택적으로 Huffman 코딩을 적용한다.
  • 상위 16개 지수 값은 대부분을 차지하므로, 평균 표현 비용을 크게 낮출 수 있다.
  • 희귀 지수는 행 전체를 원본 그대로 저장해 무손실을 유지한다.
  • 메모리 트래픽이 큰 MLP 가중치에 우선 적용한다.

복원 방식

일반적인 압축 해제는 복원된 데이터를 다시 HBM에 쓰고 읽는 비용이 생긴다. Unweight는 압축된 가중치를 HBM에서 SMEM으로 바로 가져와 온칩에서 복원하고 즉시 텐서 코어에 공급하는 방식이다.

결과

Llama 3.1 8B 기준으로 AI Sparkup가 정리한 결과는 다음과 같다.

  • 추론용 번들: 모델 메모리 약 13% 감소, VRAM 약 3GB 절감
  • 배포용 번들: 모델 크기 약 22% 감소
  • 처리량 오버헤드: batch 1에서 약 41%, batch 1024에서 약 30%

한계

  • 온칩 복원 자체가 추가 연산이므로 공짜 점심은 아니다.
  • 아직 MLP 다운 프로젝션, attention, embedding은 전부 압축 대상이 아니다.
  • 커스텀 커널은 배치 크기에 따라 이득과 손해가 갈린다.

메모

  • 이 노트는 AI Sparkup의 한국어 요약을 바탕으로 정리했다.
  • 원 논문/원문은 별도 확인이 필요하다.
  • Cloudflare의 추론 인프라와 연결해 보면 2026-04-17-cloudflare-ai-platform-inference-layer와 함께 읽기 좋다.