得早学就创

【Ace顶尖实习生】全模态Agent长程任务RL算法+工程C

招聘时间

即日起至 2026-10-10

招聘单位

小红书

所在地区

北京

工作地点

亚运村街道安定路五号院7号楼中海国际大厦A座+B座

学历要求

本科

实习时长

每周5天，每天3小时

职责描述

工作职责：
本课题聚焦全模态Agent（GUI操作、代码生成、网页导航）在长程交互任务领域的算法研究。旨在解决Agent执行跨越数百至数千步的复杂任务时，传统强化学习仅依赖终态奖励信号，导致信用分配路径过长、梯度信号衰减，策略优化难以收敛的问题。研究方向包括：设计层次化时间抽象信用分配机制，缓解长程任务中flat policy的优化不稳定问题；设计验证跨模态可验证奖励机制，抑制Reward hacking对训练过程的干扰，实现全模态长程Agentic RL 稳定收敛。该研究成果将在WebArena、SWE-bench等主流评测基准上验证方法的有效性，应用于公司内社区生态Agent基座、AI跨模态深度搜索等业务场景，并集成至自研开源的强化学习引擎Relax，增强业界影响力。

任职资格：
1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、熟悉Linux/Unix平台上的C++编程，熟悉网络编程-多线程编程，有良好的编程习惯；
3、熟悉其中一种主流的深度学习训练或推理框架（TensorFlow / PyTorch / Onnx / TensorRT等）的原理和实现者优先；
4、有扎实的专业基础知识，熟悉常用的数据结构和算法，对计算机系统结构-网络-操作系统等专业知识有深刻认知；
5、良好的沟通协作能力，责任心强，积极主动，能和团队一起探索新技术，推进技术进步。