面向混合专家模型的流行专家预取策略
在混合专家模型训练中,引入专家并行可以有效减轻单节点的内存压力并提高模型性能.然而,专家并行训练存在因令牌(Token)频繁跨节点传输及节点间负载不均衡而导致的高通信开销问题.针对此问题,本文提出了一种基于流行度的预取专家策略(Prefetch Ex...
小型微型计算机系统
2025年07期
立即查看 >
图书推荐
相关工具书