职责描述
岗位职责:
1、语音数据构建:负责语音识别、语音合成、语音大模型所需的数据采集与管理,涵盖多语言、多方言、多场景(通话、会议、嘈杂环境)。
2、设计数据采集规范(音频格式、采样率、录音场景),并推动外部/内部数据采集项目。
3、数据清洗与预处理 开发自动化处理工具,完成语音数据的去噪、VAD 分割、转码、音频质量检测,进行数据去重、异常检测,确保数据分布均衡和质量稳定。
4、数据标注与质量管控:组织并管理语音转写、音素对齐、韵律标注、情感/风格标注。 制定统一的标注规范,保证跨语言、跨场景标注一致性。
5、开发标注质量检测与抽检工具,持续优化标注流程。
6、数据管理与流转:搭建语音数据仓库及管理系统,支持版本管理、标签检索、权限控制。 维护语音识别/合成训练数据 pipeline,支持大规模分布式数据流转。
岗位要求:
1、计算机、人工智能、语言学或相关专业。
2、熟悉语音数据处理流程,具备语音识别 (ASR)、语音合成 (TTS) 或大模型训练数据经验。
3、熟练掌握至少一种脚本语言(Python / Shell),有音频处理经验(ffmpeg、sox、librosa 等)。
4、了解常见语音数据特征提取方法(MFCC、FBank、mel-spectrogram)。
5、熟悉常见数据标注工具与平台,有大规模语音数据管理经验。 具备良好的数据分析能力和问题定位能力,能与算法工程师高效协作。