职责描述
职责描述:
1. 提升自动驾驶场景中训练数据的自动化标注能力,协助完成数据闭环;
2. 负责视觉语言模型(VLM / VLA)的后训练调优(涵盖小规模与大规模阶段),持续增强模型在自动驾驶场景中的感知与推理能力;
3. 探索多模态融合、基座模型、思维链(CoT / CoC)等前沿技术在自动驾驶领域的创新应用,提升复杂场景下的模型推理能力与泛化边界;
4. 深度对接自动驾驶业务需求,推动关键技术落地,协同实现模型效果与系统性能的双重提升;
5. 从业务实际问题出发,参与解决方案的探索与预研,推动技术持续演进与落地。
任职要求:
1. 教育背景
a. 计算机科学与技术、人工智能、机器学习或相关专业,在读硕士或博士研究生。
2. 专业技能
a. 具备扎实的计算机与人工智能基础,熟悉 Transformer、ViT、LLaVA、Qwen-VL、InternVL、MiMo-V2-Omni 等常见模型架构;
b. 熟悉 LoRA、SFT、RL 等主流后训练技术;
c. 编程能力强,熟练掌握 Python,熟悉 PyTorch 及相关大模型训练框架(如 ms-swift、DeepSpeed、Megatron 等)。
3. 软性能力
a. 能够主动同步工作进展,具备良好的团队协作与沟通能力。
4. 优先条件
a. 有 VLM / VLA 多模态大模型的预训练(pretrain)或后训练(post-train)经验;
b. 以第一作者或共同作者在 A 类会议(如 CVPR、ICCV、ACL、AAAI、NeurIPS、ICML 、ICLR等)发表过相关论文者优先。