职责描述
工作职责:
本课题聚焦全模态Agent(GUI操作、代码生成、网页导航)在长程交互任务领域的算法研究。旨在解决Agent执行跨越数百至数千步的复杂任务时,传统强化学习仅依赖终态奖励信号,导致信用分配路径过长、梯度信号衰减,策略优化难以收敛的问题。研究方向包括:设计层次化时间抽象信用分配机制,缓解长程任务中flat policy的优化不稳定问题;设计验证跨模态可验证奖励机制,抑制Reward hacking对训练过程的干扰,实现全模态长程Agentic RL 稳定收敛。该研究成果将在WebArena、SWE-bench等主流评测基准上验证方法的有效性,应用于公司内社区生态Agent基座、AI跨模态深度搜索等业务场景,并集成至自研开源的强化学习引擎Relax,增强业界影响力。
任职资格:
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先;
2、熟悉Linux/Unix平台上的C++编程,熟悉网络编程-多线程编程,有良好的编程习惯;
3、熟悉其中一种主流的深度学习训练或推理框架(TensorFlow / PyTorch / Onnx / TensorRT等)的原理和实现者优先;
4、有扎实的专业基础知识,熟悉常用的数据结构和算法,对计算机系统结构-网络-操作系统等专业知识有深刻认知;
5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。