Cloudflare Workers AI - 대형 모델 지원
Workers AI가 프론티어 오픈소스 모델을 제공하기 시작. Kimi K2.5 (256k 컨텍스트) 지원.
핵심 발표
- Kimi K2.5 — Moonshot AI의 프론티어 모델
- 256k 컨텍스트 윈도우
- 멀티턴 툴 콜링, 비전 입력, 구조화 출력 지원
- Cloudflare Developer Platform에서 에이전트 전체 라이프사이클 실행 가능
가격-성능 Sweet Spot
실제 사용 사례
Cloudflare 내부 보안 리뷰 에이전트:
- 하루 7B 토큰 처리
- 단일 코드베이스에서 15개 이상의 확된 이슈 발견
- 중급 독점 모델 사용 시: 연 $2.4M
- Kimi K2.5 사용 시: 77% 비용 절감
시대의 변화
- 개인마다 OpenClaw 같은 에이전트가 24/7 실행
- 직원당 여러 에이전트가 시간당 수십만 토큰 처리
- 비용이 더 이상 부차적 고려사항이 아님 — 확장의 주요 장벽
- 기업들은 독점 가격 없이 프론티어 수준 추론을 제공하는 오픈소스 모델로 전환
대형 모델 인퍼런스 스택
최적화 기법
| 기법 | 설명 |
|---|---|
| Custom kernels | 성능 및 GPU 활용도 향상 |
| Infire inference engine | Cloudflare 자체 엔진 |
| Data parallelization | 데이터 병렬화 |
| Tensor parallelization | 텐서 병렬화 |
| Expert parallelization | 전문가 병렬화 |
| Disaggregated prefill | prefill과 생성 단계를 다른 머신에서 분리 |
이점: ML 엔지니어, DevOps, SRE가 아니어도 됨 — 최적화는 Cloudflare가 이미 완료, API만 호출하면 됨.
새로운 기능
1. Prefix Caching
문제:
- 에이전트는 많은 입력 토큰 전송 (시스템 프롬프트, 툴 정의, MCP 서버, 코드베이스)
- 최대 256k 입력 토큰
- 멀턴 대화에서 연속 요청 간 차이는 보통 몇 줄뿐
해결:
- 이전 요청의 입력 텐서 캐싱
- 새 입력 토큰만 prefill
- TTFT 단축, TPS 증가, 비용 절감
새로운 기능:
- 캐시된 토큰을 usage metric으로 노출
- 캐시된 토큰 할인
x-session-affinity헤더로 캐시 적중률 향상
curl -X POST \
"https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/moonshotai/kimi-k2.5" \
-H "Authorization: Bearer {API_TOKEN}" \
-H "x-session-affinity: ses_12345678" \
-d '{"messages": [...]}'2. Redesigned Async APIs
문제:
- 서버리스 인퍼런스는 용량 경쟁
- 동기 rate limit 초과 시 Out of Capacity 에러
해결:
- 비동기 요청을 내구성 있게 실행
- pull-based 시스템 (push → pull)
- GPU 여유 용량 있을 때 큐에서 요청 가져옴
- 내부 테스트: 보통 5분 내 실행
적합한 용도:
- 코드 스캐닝 에이전트
- 리서치 에이전트
- 실시간이 아닌 워크플로우
// 비동기 요청
let res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
"requests": [{ "messages": [...] }]
}, {
queueRequest: true,
});
// 상태 폴링
let res = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
request_id: request_id
});Kimi K2.5 사양
| 항목 | 값 |
|---|---|
| Context Window | 256k |
| Tool Calling | 멀티턴 지원 |
| Vision | 지원 |
| Structured Outputs | 지원 |
| Provider | Moonshot AI |
사용 시작
| 리소스 | 링크 |
|---|---|
| Model & Pricing | developers.cloudflare.com/workers-ai/models/kimi-k2.5/ |
| Prompt Caching | developers.cloudflare.com/workers-ai/features/prompt-caching/ |
| Async API | developers.cloudflare.com/workers-ai/features/batch-api/ |
| Agents SDK Starter | github.com/cloudflare/agents-starter |
| OpenCode 연동 | opencode.ai/docs/providers/ |
| Playground | playground.ai.cloudflare.com |
의의
“Cloudflare를 에이전트 구축 및 배포에 가장 좋은 곳으로 만들고 있습니다.”
“이제 Workers AI가 대형 모델 게임에 공식적으로 진입합니다.”