得早学就创

大模型算法工程师-深度学习框架方向

招聘时间

即日起至 2026-10-01

招聘单位

科大讯飞

所在地区

合肥

工作地点

安徽省/合肥市/蜀山区科大讯飞语音产业基地

学历要求

不限

实习时长

每周5天，每天5小时

职责描述

岗位简介
负责千亿/万亿级大模型训练框架的架构设计、研发与性能优化，聚焦训练框架迭代、并行策略调度、通信优化、显存管理，并面向 SFT 监督微调与 RL 后训练（RLHF/PPO 等）等新型训练范式进行框架扩展。攻克大规模训练中的效率、稳定性、显存瓶颈等核心问题，支撑大模型训练与对齐业务规模化、高效迭代。
岗位职责
1、负责大模型分布式训练框架的设计与研发，主导数据并行、模型并行、流水线并行、张量并行等策略的调度与组合，优化通信拓扑，持续提升框架通用性与训练效率。
2、深耕大规模训练性能优化，落地ZeRO分片、梯度累积、混合精度、异步更新等技术，解决超大模型显存溢出、通信开销大、训练吞吐低等工程痛点。
3、负责多机多卡分布式训练系统研发，优化NCCL通信、梯度同步及跨设备数据传输，支撑千卡级集群高效稳定训练。
4、跟进业界前沿训练框架（DeepSpeed/Megatron-LM/FSDP）及 RL 后训练框架（Verl/Slime等），完成技术选型、版本升级与工具链建设，赋能业务快速迭代。
任职资格
深刻理解大规模分布式训练原理，熟练掌握DeepSpeed、Megatron-LM、FSDP等至少一种框架的底层实现，了解 SFT 及 RL 后训练（如 RLHF、PPO）的基本流程，对相关框架（Verl, Slime等）有实际使用或开发经验者优先。
2、熟悉GPU/NPU异构硬件架构，掌握CUDA编程或CANN/DCU开发经验，有国产平台适配经验者优先。
3、精通C++/Python，具备高性能代码开发能力，熟悉分布式通信与调度机制，能独立排查并解决训练中的性能与稳定性问题。
4、熟练使用性能分析工具（PyTorch Profiler、Nsight、perf等），能定位CPU/GPU瓶颈并提出代码级优化方案。
5、具备良好的工程素养与团队协作意识，有开源社区贡献者优先。
6、要求实习5个月以上，只考虑应届毕业生，有转正HC