Cloudflare Workers AI - 대형 모델 지원

Workers AI가 프론티어 오픈소스 모델을 제공하기 시작. Kimi K2.5 (256k 컨텍스트) 지원.

핵심 발표

Kimi K2.5 — Moonshot AI의 프론티어 모델
256k 컨텍스트 윈도우
멀티턴 툴 콜링, 비전 입력, 구조화 출력 지원
Cloudflare Developer Platform에서 에이전트 전체 라이프사이클 실행 가능

가격-성능 Sweet Spot

실제 사용 사례

Cloudflare 내부 보안 리뷰 에이전트:

하루 7B 토큰 처리
단일 코드베이스에서 15개 이상의 확된 이슈 발견
중급 독점 모델 사용 시: 연 $2.4M
Kimi K2.5 사용 시: 77% 비용 절감

시대의 변화

개인마다 OpenClaw 같은 에이전트가 24/7 실행
직원당 여러 에이전트가 시간당 수십만 토큰 처리
비용이 더 이상 부차적 고려사항이 아님 — 확장의 주요 장벽
기업들은 독점 가격 없이 프론티어 수준 추론을 제공하는 오픈소스 모델로 전환

대형 모델 인퍼런스 스택

최적화 기법

기법	설명
Custom kernels	성능 및 GPU 활용도 향상
Infire inference engine	Cloudflare 자체 엔진
Data parallelization	데이터 병렬화
Tensor parallelization	텐서 병렬화
Expert parallelization	전문가 병렬화
Disaggregated prefill	prefill과 생성 단계를 다른 머신에서 분리

이점: ML 엔지니어, DevOps, SRE가 아니어도 됨 — 최적화는 Cloudflare가 이미 완료, API만 호출하면 됨.

새로운 기능

1. Prefix Caching

문제:

에이전트는 많은 입력 토큰 전송 (시스템 프롬프트, 툴 정의, MCP 서버, 코드베이스)
최대 256k 입력 토큰
멀턴 대화에서 연속 요청 간 차이는 보통 몇 줄뿐

해결:

이전 요청의 입력 텐서 캐싱
새 입력 토큰만 prefill
TTFT 단축, TPS 증가, 비용 절감

새로운 기능:

캐시된 토큰을 usage metric으로 노출
캐시된 토큰 할인
x-session-affinity 헤더로 캐시 적중률 향상

curl -X POST \
  "https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/moonshotai/kimi-k2.5" \
  -H "Authorization: Bearer {API_TOKEN}" \
  -H "x-session-affinity: ses_12345678" \
  -d '{"messages": [...]}'

2. Redesigned Async APIs

문제:

서버리스 인퍼런스는 용량 경쟁
동기 rate limit 초과 시 Out of Capacity 에러

해결:

비동기 요청을 내구성 있게 실행
pull-based 시스템 (push → pull)
GPU 여유 용량 있을 때 큐에서 요청 가져옴
내부 테스트: 보통 5분 내 실행

적합한 용도:

코드 스캐닝 에이전트
리서치 에이전트
실시간이 아닌 워크플로우

// 비동기 요청
let res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  "requests": [{ "messages": [...] }]
}, {
  queueRequest: true,
});
 
// 상태 폴링
let res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
  request_id: request_id
});

Kimi K2.5 사양

항목	값
Context Window	256k
Tool Calling	멀티턴 지원
Vision	지원
Structured Outputs	지원
Provider	Moonshot AI

사용 시작

리소스	링크
Model & Pricing	developers.cloudflare.com/workers-ai/models/kimi-k2.5/
Prompt Caching	developers.cloudflare.com/workers-ai/features/prompt-caching/
Async API	developers.cloudflare.com/workers-ai/features/batch-api/
Agents SDK Starter	github.com/cloudflare/agents-starter
OpenCode 연동	opencode.ai/docs/providers/
Playground	playground.ai.cloudflare.com

의의

“Cloudflare를 에이전트 구축 및 배포에 가장 좋은 곳으로 만들고 있습니다.”

“이제 Workers AI가 대형 모델 게임에 공식적으로 진입합니다.”

Context Vault

탐색기

Cloudflare Workers AI - 대형 모델 지원 (Kimi K2.5)

Cloudflare Workers AI - 대형 모델 지원

핵심 발표

가격-성능 Sweet Spot

실제 사용 사례

시대의 변화

대형 모델 인퍼런스 스택

최적화 기법

새로운 기능

1. Prefix Caching

2. Redesigned Async APIs

Kimi K2.5 사양

사용 시작

의의

Sources

그래프 뷰

목차