职责描述
工作职责:
协助构建面向语音、文本、图像的多模态数据集,参与模型训练、调优与评测;
支持多模态情感识别、内容理解等任务的算法研发与实验验证;
探索视觉-语言-语音等多模态融合技术,跟踪前沿模型(如类千问VLM)并复现论文;
参与处理多源异构数据,设计数据增强策略以提升模型鲁棒性;
与团队协作完成技术调研、实验分析及项目落地中的辅助工作。
任职要求:
本科及以上学历,计算机、人工智能、电子工程、数学等相关专业;
熟悉深度学习基础,了解Transformer、CLIP或多模态大模型基本概念;
掌握Python和PyTorch/TensorFlow框架,有模型训练或调优经验者优先;
对语音/NLP/计算机视觉中至少一个方向有课程项目或实习经历;
具备良好英文文献阅读能力,有论文发表或开源项目贡献者优先;
每周可保证3天以上实习时间,能连续实习3个月以上;
主动性强,善于沟通,乐于学习新技术。