职责描述
岗位简介
负责千亿/万亿级大模型训练框架的架构设计、研发与性能优化,聚焦训练框架迭代、并行策略调度、通信优化、显存管理,并面向 SFT 监督微调 与 RL 后训练(RLHF/PPO 等) 等新型训练范式进行框架扩展。攻克大规模训练中的效率、稳定性、显存瓶颈等核心问题,支撑大模型训练与对齐业务规模化、高效迭代。
岗位职责
1、负责大模型分布式训练框架的设计与研发,主导数据并行、模型并行、流水线并行、张量并行等策略的调度与组合,优化通信拓扑,持续提升框架通用性与训练效率。
2、深耕大规模训练性能优化,落地ZeRO分片、梯度累积、混合精度、异步更新等技术,解决超大模型显存溢出、通信开销大、训练吞吐低等工程痛点。
3、负责多机多卡分布式训练系统研发,优化NCCL通信、梯度同步及跨设备数据传输,支撑千卡级集群高效稳定训练。
4、跟进业界前沿训练框架(DeepSpeed/Megatron-LM/FSDP)及 RL 后训练框架(Verl/Slime等),完成技术选型、版本升级与工具链建设,赋能业务快速迭代。
任职资格
深刻理解大规模分布式训练原理,熟练掌握DeepSpeed、Megatron-LM、FSDP等至少一种框架的底层实现,了解 SFT 及 RL 后训练(如 RLHF、PPO)的基本流程,对相关框架(Verl, Slime等)有实际使用或开发经验者优先。
2、熟悉GPU/NPU异构硬件架构,掌握CUDA编程或CANN/DCU开发经验,有国产平台适配经验者优先。
3、精通C++/Python,具备高性能代码开发能力,熟悉分布式通信与调度机制,能独立排查并解决训练中的性能与稳定性问题。
4、熟练使用性能分析工具(PyTorch Profiler、Nsight、perf等),能定位CPU/GPU瓶颈并提出代码级优化方案。
5、具备良好的工程素养与团队协作意识,有开源社区贡献者优先。
6、要求实习5个月以上,只考虑应届毕业生,有转正HC