得早学就创

语音&翻译数据管线实习生

招聘时间

即日起至 2026-07-31

招聘单位

声联无界VoxNexus

所在地区

上海

工作地点

上海市/上海市/浦东新区科学之门A塔

学历要求

硕士

实习时长

每周4天，每天3小时

职责描述

工作内容：
1.参与语音(ASR/TTS)及翻译语料的收集、清洗、标注与分析流程设计，确保数据质量与规模达标；协助优化数据生产方案，探索更高效的语料生成方法；
2.研究语料质量对语音与翻译模型的影响,协助构建高质量语料库,支持模型训练与调优；
3.协助维护分布式数据采集系统，优化音频与文本数据的爬取、解析、存储等流程，提升数据获取与处理效率；
4.调研行业最新语料生产技术，探索更具成本效益的语音与文本数据生产方案。

岗位要求：
1.熟悉至少一种编程语言(Python/Go/C++),有基础代码能力，了解数据结构与算法；
2.了解常见爬虫框架(如Scrapy/Selenium)，有数据采集或处理经验者优先；
3.接触过音频处理(如ffmpeg/librosa)或语音数据相关工具者优先；
4.对NLP数据工程或AI语料生产(语音/文本)感兴趣，有相关项目或实习经验更佳；
5.了解多语言语料标准(如音频转写、翻译对齐、数据标注)者优先；
6.具备良好的问题分析能力,能独立调研并解决技术问题；
7.逻辑清晰、沟通顺畅，能与团队高效协作。