Agentic AI 要求模型支撑持续高吞吐推理负载。Mooncake 通过 KVCache-centric PD 分离架构、基于 RDMA 的 Transfer Engine 与三层分布式存储实现极致性能,完整适配亚马逊云科技 EFA 实现高带宽跨节点通信,可直接在云上部署面向 Agentic 场景的生产级推理系统。
免责声明:本视频内容仅供学习与参考用途,不作任何商业使用。如有任何疑问或需要删除,请联系 AWS Summit China(aws-summit-cn@amazon.com),我们将及时处理。