职责描述
岗位职责:
1、负责研发语音生成、对话语音大模型,实现富有情感、高自然度的语音识别(ASR)与语音合成(TTS);
2、研究语音表征学习、生成架构、声码器、语音tokenizer、跨模态语音-文本对齐(Alignment)等核心模块;
3、开展大规模语音-文本数据集预处理、预训练,面向终端陪伴场景完成模型微调、强化学习(RL)实验;
4、跟进 CosyVoice、VoxCPM、IndexTTS、Qwen-TTS、Qwen-omni、Step-audio等丰流语音大模型架构迭代;
5、与LLM、产品团队协同,定位语音识别、音色生成、情感适配问题,持续优化终端语音交互产品体验;
6、跟进语音、AI顶会前沿技术,复现前沿算法并落地验证,沉淀语音算法实验基线与工具链。
基础要求:
1、硕士及以上学历,计算机、人工智能、语音信号处理、机器学习、应用数学、统计学等相关专业;
2、扎实深度学习基础,熟练PyTorch框架,精通RNN、CNN、Transformer等主流网络,掌握基础语音信号处理知识;
3、完整了解ASR、TTS全链路技术,熟悉声学模型、声码器、语音生成推理流程,有语音合成/语音转换/对话系统项目实操经验;
4、编程能力扎实,熟练Python,掌握C/C++者优先,具备独立设计算法实验、调参、结果分析的能力。
加分项:
1、以第一作者身份在以下国际顶会/期刊发表语音、NLP、AI相关论文:ICASSP、Interspeech、ACL、EMNLP、NAACL、 ICLR, NeurlPS, ICML;
2、在CL、语音/AI领域高水平国际期刊、workshop发表相关学术论文;
3、程序设计、语音算法类竞赛取得优异奖项(ACM、超算竞赛、语音识别大赛等);
4、拥有语音方向学术研究成果,有独立算法创新、论文撰写投稿经验优先。