职责描述
岗位职责
参与视觉大模型的训练、调参与性能优化,包括 diffusion / autoregressive / latent dynamics 等范式;
基于模型结果与中间表征进行效果分析,定位问题(如时序不一致、结构崩塌、motion drift 等)并提出改进方案;
参与模型实验设计与评估体系建设(如 FVD、IS、CLIP-score、temporal consistency 等),完成结果分析与对比;
支持数据闭环,包括视频数据清洗、标注策略设计、数据分布分析及对模型能力的影响评估;
隐式3D建模、时空建模等学术前沿方向论文、方案跟进(spatio-temporal modeling、camera/control建模等)
岗位要求
计算机科学、人工智能、自动化、机器人等相关专业在读本科或硕士;
扎实的深度学习基础,理解视频生成或时序建模任务(如 video diffusion、transformer-based generation、VAE/tokenizer 等);
熟悉主流模型结构(CNN / Transformer / Diffusion / VAE / LLM / VLM),有生成模型或多模态模型经验优先;
具备模型训练与调参经验,熟悉大规模训练(如分布式训练、混合精度、memory optimization);
具备良好的数学基础(线性代数、概率统计、优化方法);
有以下经验者优先:
视频生成(如 DiT、Video Diffusion、Latent Video Model)
世界模型 / 隐式建模(如 NeRF、3D-aware generation、implicit representation)
多模态对齐(text-to-video / image-to-video)
自动驾驶或仿真环境中的时序建模经验