职责描述
岗位介绍
探索大模型在垂域业务中的落地,参与真实业务场景下的大模型训练与优化工作,直接接触完整训练链路,包括:
数据构建与清洗
SFT / RL 后训练
模型离线评估与 badcase 分析
线上效果分析与迭代
岗位要求
熟练使用 Python
具备以下框架的实际使用经验:LLaMA-Factory / verl / vLLM
具备大模型后训练相关经验,包括不限于 SFT / RLVR / RLHF ……
熟悉至少一种强化学习后训练算法,并理解其核心训练流程,包括不限于 PPO / GRPO / DAPO ……
加分项
具备 Spark 相关经验,能够熟练使用 SQL
具备数据清洗、badcase 分析,reward 与业务目标对齐经验