得早学就创

语音大模型算法实习生

招聘时间

即日起至 2026-07-15

招聘单位

声联无界VoxNexus

所在地区

上海

工作地点

上海市/上海市/浦东新区科学之门A塔

学历要求

硕士

实习时长

每周4天，每天3小时

职责描述

岗位职责：
1、负责研发语音生成、对话语音大模型，实现富有情感、高自然度的语音识别(ASR)与语音合成(TTS)；
2、研究语音表征学习、生成架构、声码器、语音tokenizer、跨模态语音-文本对齐(Alignment)等核心模块；
3、开展大规模语音-文本数据集预处理、预训练，面向终端陪伴场景完成模型微调、强化学习(RL)实验；
4、跟进 CosyVoice、VoxCPM、IndexTTS、Qwen-TTS、Qwen-omni、Step-audio等丰流语音大模型架构迭代；
5、与LLM、产品团队协同，定位语音识别、音色生成、情感适配问题，持续优化终端语音交互产品体验；
6、跟进语音、AI顶会前沿技术，复现前沿算法并落地验证，沉淀语音算法实验基线与工具链。

基础要求：
1、硕士及以上学历，计算机、人工智能、语音信号处理、机器学习、应用数学、统计学等相关专业；
2、扎实深度学习基础，熟练PyTorch框架，精通RNN、CNN、Transformer等主流网络，掌握基础语音信号处理知识；
3、完整了解ASR、TTS全链路技术，熟悉声学模型、声码器、语音生成推理流程，有语音合成/语音转换/对话系统项目实操经验；
4、编程能力扎实，熟练Python，掌握C/C++者优先，具备独立设计算法实验、调参、结果分析的能力。

加分项：
1、以第一作者身份在以下国际顶会/期刊发表语音、NLP、AI相关论文:ICASSP、Interspeech、ACL、EMNLP、NAACL、 ICLR, NeurlPS, ICML；
2、在CL、语音/AI领域高水平国际期刊、workshop发表相关学术论文；
3、程序设计、语音算法类竞赛取得优异奖项(ACM、超算竞赛、语音识别大赛等)；
4、拥有语音方向学术研究成果，有独立算法创新、论文撰写投稿经验优先。