职责描述
工作内容:
1.参与语音(ASR/TTS)及翻译语料的收集、清洗、标注与分析流程设计,确保数据质量与规模达标;协助优化数据生产方案,探索更高效的语料生成方法;
2.研究语料质量对语音与翻译模型的影响,协助构建高质量语料库,支持模型训练与调优;
3.协助维护分布式数据采集系统,优化音频与文本数据的爬取、解析、存储等流程,提升数据获取与处理效率;
4.调研行业最新语料生产技术,探索更具成本效益的语音与文本数据生产方案。
岗位要求:
1.熟悉至少一种编程语言(Python/Go/C++),有基础代码能力,了解数据结构与算法;
2.了解常见爬虫框架(如Scrapy/Selenium),有数据采集或处理经验者优先;
3.接触过音频处理(如ffmpeg/librosa)或语音数据相关工具者优先;
4.对NLP数据工程或AI语料生产(语音/文本)感兴趣,有相关项目或实习经验更佳;
5.了解多语言语料标准(如音频转写、翻译对齐、数据标注)者优先;
6.具备良好的问题分析能力,能独立调研并解决技术问题;
7.逻辑清晰、沟通顺畅,能与团队高效协作。