Cloudflare의 AI 플랫폼 — 에이전트를 위한 추론 계층

Cloudflare는 여러 모델·제공자·호스팅 방식을 하나의 API·과금·관측 레이어로 숨겨, 에이전트 앱의 추론 복잡성을 플랫폼 문제로 흡수하려 한다.

개요

GeekNews 요약 기준으로 Cloudflare의 전략은 AI Gateway와 Workers AI를 결합해 70개+ 모델, 12개+ 제공자를 하나의 카탈로그와 API로 묶는 것이다. 개발자는 Workers 안에서 AI.run()으로 타사 모델을 호출하고, 사용량·비용·메타데이터를 중앙에서 추적하며, 동일 모델이 여러 제공자에 존재할 경우 자동 failover까지 받을 수 있다. 에이전트형 앱이 보통 여러 모델을 조합한다는 전제를 플랫폼 기본값으로 받아들인 셈이다.

여기에 Replicate의 Cog 기반 BYOM(Bring Your Own Model) 경로를 얹어, 공개 모델 카탈로그뿐 아니라 사용자가 직접 튜닝한 모델을 Workers AI에 올리는 그림까지 제시한다. 결국 Cloudflare는 “에이전트를 어디서 돌릴 것인가”뿐 아니라 “어떤 모델을 어떻게 바꾸고 실패 시 어디로 넘길 것인가”까지 단일 제어면으로 만들고 있다.

핵심 포인트

  • AI Gateway + Workers AI로 멀티모델 추론 계층 구성
  • 70개+ 모델, 12개+ 제공자를 하나의 API·대시보드로 통합
  • 중앙 비용 추적, 고객별/워크플로별 관측 지원
  • 동일 모델 다중 제공자 간 자동 failover 제공
  • Replicate Cog 기반 커스텀 모델 배포(BYOM) 로드맵 제시

왜 중요한가

2026-04-16-cloudflare-project-think가 장기 실행 에이전트의 상태·복구 계층을 설명했다면, 이 글은 그 위에 올라갈 추론 계층을 설명한다. 다시 말해 Cloudflare는 네트워크, 상태, 추론, 이메일 인터페이스까지 수직 통합하고 있다.

또한 이 방향은 2026-04-16-openai-agents-sdk-next-evolution의 model-native harness와 다른 결을 가진다. OpenAI가 모델·SDK 쪽 통합을 밀어붙인다면, Cloudflare는 멀티모델·멀티프로바이더 운영을 인프라 레벨에서 평탄화한다. 두 접근 모두 에이전트 스택의 핵심이 “좋은 모델 하나”에서 “복잡한 추론 운영면”으로 이동했음을 보여준다.

Sources