实习岗位详情

大模型强化学习训练引擎研发工程师(练习生)
 招聘时间
即日起 至 2026-10-10
 招聘单位
小红书
 所在地区
上海
 工作地点
马当路388号SOHO复兴广场
 学历要求
本科
 实习时长
每周5天,每天3小时
 职责描述
工作职责:
工作职责:
1、参与千亿级大模型的分布式强化学习 RL 训练框架研发,提升百卡~千卡级训练吞吐与资源利用率
2、参与 100B以上多模态强化学习算法流程适配(如DAPO等),各领域任务的 RL 正确性验证
3、实验并调优不同并行策略(Tensor/ZeRO/FSDP/Pipeline Parallelism)在超大规模模型上的最佳配置组合
4、协助定位分析分布式训练中的关键性能瓶颈(如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等),设计并实施优化方案进行验证。
5、参与研发/优化训练引擎的关键特性,如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子(Kernel)的集成与优化。

任职资格:
任职资格:
1、优秀的代码能力、数据结构和基础算法功底,熟悉Python开发,熟悉 Linux/Git开发环境;
2、有较好的学习能力、沟通协作能力和自驱力,能和团队一起探索新技术,推进技术进步(⭐️有大牛带着成长)
2、熟悉至少一种主流基础深度学习训练框架(TensorFlow/PyTorch/PaddlePaddle等)的使用和实现;
3、了解主流LLM模型结构,使用过至少一种主流LLM训练框架(Megatron-LM/DeepSpeed/veRL等);

加分项:
1、熟悉DP/TP/PP/ZeRO等分布式训练策略原理,有大模型训练调优分析经验者优先;
2、熟悉至少一种AI编译加速组件者优先,包含但不限与TorchInductor/TVM/Triton/XLA等;
3、了解并行计算、网络通信、系统优化和集群硬件架构等相关知识者优先;
4、了解 GPU 硬件架构和 GPU 软件栈(CUDA,cuDNN),具备一定的 GPU 性能分析的能力;
5、熟悉NCCL/RDMA/IB/RoCE相关知识者优先;
6、有优秀开源项目经历者优先。
相关实习岗位
查看更多实习岗位

分享

收藏

 

©版权所有 deizao.net(得早学就创) 粤ICP备2024216716号