得早学就创

大模型强化学习训练引擎研发工程师（练习生）

招聘时间

即日起至 2026-10-10

招聘单位

小红书

所在地区

上海

工作地点

马当路388号SOHO复兴广场

学历要求

本科

实习时长

每周5天，每天3小时

职责描述

工作职责：
工作职责：
1、参与千亿级大模型的分布式强化学习 RL 训练框架研发，提升百卡~千卡级训练吞吐与资源利用率
2、参与 100B以上多模态强化学习算法流程适配（如DAPO等），各领域任务的 RL 正确性验证
3、实验并调优不同并行策略（Tensor/ZeRO/FSDP/Pipeline Parallelism）在超大规模模型上的最佳配置组合
4、协助定位分析分布式训练中的关键性能瓶颈（如GPU利用率低、显存瓶颈、网络通信阻塞、I/O延迟等），设计并实施优化方案进行验证。
5、参与研发/优化训练引擎的关键特性，如大规模集群下的稳定断点续训、高性能异步Rollout机制、以及高性能算子（Kernel）的集成与优化。

任职资格：
任职资格：
1、优秀的代码能力、数据结构和基础算法功底，熟悉Python开发，熟悉 Linux/Git开发环境；
2、有较好的学习能力、沟通协作能力和自驱力，能和团队一起探索新技术，推进技术进步（⭐️有大牛带着成长）
2、熟悉至少一种主流基础深度学习训练框架（TensorFlow/PyTorch/PaddlePaddle等）的使用和实现；
3、了解主流LLM模型结构，使用过至少一种主流LLM训练框架（Megatron-LM/DeepSpeed/veRL等）；

加分项：
1、熟悉DP/TP/PP/ZeRO等分布式训练策略原理，有大模型训练调优分析经验者优先；
2、熟悉至少一种AI编译加速组件者优先，包含但不限与TorchInductor/TVM/Triton/XLA等；
3、了解并行计算、网络通信、系统优化和集群硬件架构等相关知识者优先；
4、了解 GPU 硬件架构和 GPU 软件栈（CUDA，cuDNN)，具备一定的 GPU 性能分析的能力；
5、熟悉NCCL/RDMA/IB/RoCE相关知识者优先；
6、有优秀开源项目经历者优先。