得早学就创

多模态大模型算法实习生-2027届(A137854)

招聘时间

即日起至 2027-03-05

招聘单位

小米

所在地区

北京

工作地点

北京市/北京市/海淀区

学历要求

硕士

实习时长

每周5天，每天3小时

职责描述

职责描述：
1. 提升自动驾驶场景中训练数据的自动化标注能力，协助完成数据闭环；

2. 负责视觉语言模型（VLM / VLA）的后训练调优（涵盖小规模与大规模阶段），持续增强模型在自动驾驶场景中的感知与推理能力；

3. 探索多模态融合、基座模型、思维链（CoT / CoC）等前沿技术在自动驾驶领域的创新应用，提升复杂场景下的模型推理能力与泛化边界；

4. 深度对接自动驾驶业务需求，推动关键技术落地，协同实现模型效果与系统性能的双重提升；

5. 从业务实际问题出发，参与解决方案的探索与预研，推动技术持续演进与落地。
任职要求：
1. 教育背景
a. 计算机科学与技术、人工智能、机器学习或相关专业，在读硕士或博士研究生。

2. 专业技能
a. 具备扎实的计算机与人工智能基础，熟悉 Transformer、ViT、LLaVA、Qwen-VL、InternVL、MiMo-V2-Omni 等常见模型架构；
b. 熟悉 LoRA、SFT、RL 等主流后训练技术；
c. 编程能力强，熟练掌握 Python，熟悉 PyTorch 及相关大模型训练框架（如 ms-swift、DeepSpeed、Megatron 等）。

3. 软性能力
a. 能够主动同步工作进展，具备良好的团队协作与沟通能力。

4. 优先条件
a. 有 VLM / VLA 多模态大模型的预训练（pretrain）或后训练（post-train）经验；
b. 以第一作者或共同作者在 A 类会议（如 CVPR、ICCV、ACL、AAAI、NeurIPS、ICML 、ICLR等）发表过相关论文者优先。