得早学就创

机器学习数据实习生

招聘时间

即日起至 2026-06-25

招聘单位

字节跳动

所在地区

北京

工作地点

北京市/北京市/海淀区鼎好DH3-B座

学历要求

本科

实习时长

每周5天，每天3小时

职责描述

团队介绍：AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务，覆盖数据生产全流程，包含模型评估标准的制定、数据规模化生产、数据飞轮搭建，不断提升数据质量，支持模型快速迭代。
团队由产品经理、数据工程、数据运营等跨职能人才组成，并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作，从真实场景中收集反馈并分析模型表现数据，解决AI前沿突破过程中的复杂数据问题，推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者，也是模型和AI产品的一手用户。

1、深度参与模型ML/DL场景的训练数据和评估工作，对模型推理路径与研究过程的合理性进行分析和评估；
2、撰写和迭代评分Rubric，制定覆盖问题分解、工具调用、结论质量等维度的评估标准；
3、参与训练问题集的设计与编排，保障问题难度分布和领域覆盖符合训练目标；
4、阅读Auto-Research相关论文，协助判断novel idea的价值与实验设计的合理性。
职位要求
1、有ML/DL系统性训练经历，跑过完整训练pipeline，了解loss曲线/梯度/学习率调度等实际表现；
2、熟悉PyTorch或JAX，有动手训练经验（不只是调用API或跑fine-tune脚本）；
3、有一定论文阅读量，能看懂ablation study和实验设计逻辑，并形成独立判断；
4、表达清晰，能写出有明确判断依据的评估结论，而非模糊描述；
5、有独立研究项目、workshop或会议论文经验者优先。