Cloudflare Workers AI - 대형 모델 지원

Workers AI가 프론티어 오픈소스 모델을 제공하기 시작. Kimi K2.5 (256k 컨텍스트) 지원.

핵심 발표

  • Kimi K2.5 — Moonshot AI의 프론티어 모델
  • 256k 컨텍스트 윈도우
  • 멀티턴 툴 콜링, 비전 입력, 구조화 출력 지원
  • Cloudflare Developer Platform에서 에이전트 전체 라이프사이클 실행 가능

가격-성능 Sweet Spot

실제 사용 사례

Cloudflare 내부 보안 리뷰 에이전트:

  • 하루 7B 토큰 처리
  • 단일 코드베이스에서 15개 이상의 확된 이슈 발견
  • 중급 독점 모델 사용 시: 연 $2.4M
  • Kimi K2.5 사용 시: 77% 비용 절감

시대의 변화

  • 개인마다 OpenClaw 같은 에이전트가 24/7 실행
  • 직원당 여러 에이전트가 시간당 수십만 토큰 처리
  • 비용이 더 이상 부차적 고려사항이 아님 — 확장의 주요 장벽
  • 기업들은 독점 가격 없이 프론티어 수준 추론을 제공하는 오픈소스 모델로 전환

대형 모델 인퍼런스 스택

최적화 기법

기법설명
Custom kernels성능 및 GPU 활용도 향상
Infire inference engineCloudflare 자체 엔진
Data parallelization데이터 병렬화
Tensor parallelization텐서 병렬화
Expert parallelization전문가 병렬화
Disaggregated prefillprefill과 생성 단계를 다른 머신에서 분리

이점: ML 엔지니어, DevOps, SRE가 아니어도 됨 — 최적화는 Cloudflare가 이미 완료, API만 호출하면 됨.


새로운 기능

1. Prefix Caching

문제:

  • 에이전트는 많은 입력 토큰 전송 (시스템 프롬프트, 툴 정의, MCP 서버, 코드베이스)
  • 최대 256k 입력 토큰
  • 멀턴 대화에서 연속 요청 간 차이는 보통 몇 줄뿐

해결:

  • 이전 요청의 입력 텐서 캐싱
  • 새 입력 토큰만 prefill
  • TTFT 단축, TPS 증가, 비용 절감

새로운 기능:

  • 캐시된 토큰을 usage metric으로 노출
  • 캐시된 토큰 할인
  • x-session-affinity 헤더로 캐시 적중률 향상
curl -X POST \
  "https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/moonshotai/kimi-k2.5" \
  -H "Authorization: Bearer {API_TOKEN}" \
  -H "x-session-affinity: ses_12345678" \
  -d '{"messages": [...]}'

2. Redesigned Async APIs

문제:

  • 서버리스 인퍼런스는 용량 경쟁
  • 동기 rate limit 초과 시 Out of Capacity 에러

해결:

  • 비동기 요청을 내구성 있게 실행
  • pull-based 시스템 (push → pull)
  • GPU 여유 용량 있을 때 큐에서 요청 가져옴
  • 내부 테스트: 보통 5분 내 실행

적합한 용도:

  • 코드 스캐닝 에이전트
  • 리서치 에이전트
  • 실시간이 아닌 워크플로우
// 비동기 요청
let res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  "requests": [{ "messages": [...] }]
}, {
  queueRequest: true,
});
 
// 상태 폴링
let res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  request_id: request_id
});

Kimi K2.5 사양

항목
Context Window256k
Tool Calling멀티턴 지원
Vision지원
Structured Outputs지원
ProviderMoonshot AI

사용 시작


의의

“Cloudflare를 에이전트 구축 및 배포에 가장 좋은 곳으로 만들고 있습니다.”

“이제 Workers AI가 대형 모델 게임에 공식적으로 진입합니다.”


Sources