大模型Decode每token需上百次跨节点通信,延迟敏感度远超传统推理。基于Amazon EKS+P5en+EFA部署GLM-5.1 750B MoE的2P2D分离推理,Prefill走NVLink、Decode走EFA结合UCCLEP优化,最终TPOT对齐RoCE基线,全流程可复现。
免责声明:本视频内容仅供学习与参考用途,不作任何商业使用。如有任何疑问或需要删除,请联系 AWS Summit China(aws-summit-cn@amazon.com),我们将及时处理。