职责描述
岗位职责
注:有大模型开发经验优先
1、基于开源 OCR、视频帧文字识别项目做二次开发、定制改造、算法调优,适配业务图片、短视频、长视频文字识别场景;2、负责开源项目本地私有化部署、环境适配、Docker 打包、离线化改造,无公网依赖落地;3、图像预处理、视频帧抽取、文字检测 + 识别、版面分析、文本结构化提取优化,提升复杂场景识别准确率;4、模型轻量化、推理加速、量化压缩(ONNX/TensorRT),适配 CPU/GPU 本地服务器、边缘设备部署;5、封装标准化 API 接口、Web 后台、批量识别任务调度,对接业务系统;6、维护迭代开源版本,修复 Bug、适配特殊字体、倾斜、遮挡、模糊、逆光等复杂场景。
任职技术要求(核心)
一、基础学历与项目经验
1、本科及以上,计算机、人工智能、图像处理、模式识别、软件工程相关专业;2、OCR / 视频图像识别、开源项目二次开发、本地私有化部署实战经验;3、有PaddleOCR、EasyOCR、Tesseract、MMOCR、CRNN、YOLO 文字检测等开源项目二次开发落地经验优先。
二、编程语言与工程基础
1、熟练 Python,熟练使用 Git、Linux 环境操作、Shell 脚本;2、熟悉前后端基础,能基于 FastAPI/Flask 封装识别接口、简单 Web 管理页面;3、熟悉 Docker、容器化部署、离线镜像制作、服务器运维。
三、图像 & 视频处理技术
1、精通 OpenCV,熟练图像预处理:降噪、二值化、透视矫正、倾斜校正、裁剪、对比度增强;2、熟练 FFmpeg 视频解码、帧抽取、关键帧筛选、短视频 / 长视频抽帧 OCR;3、理解图文文字识别全流程:文本检测 + 文本识别 + 后处理纠错。
四、深度学习 & 开源框架
1、熟悉 PyTorch/TensorFlow 深度学习框架,能看懂开源模型网络结构;2、熟悉主流 OCR 开源项目源码结构,能改配置、调参、 fine-tune 微调、自定义训练数据集;3、掌握 YOLO 检测、CRNN、SVTR、Transformer-OCR 等文字识别经典模型;4、熟悉模型导出:PyTorch → ONNX → TensorRT/NCNN 量化、推理加速、轻量化适配。
五、本地部署 & 私有化要求
1、有内网离线、本地私有化部署经验,能解决依赖冲突、版本兼容、GPU/CPU 环境适配;2、熟悉 Windows/Linux 本地服务器部署,能做性能调优、并发处理、批量任务调度;3、可独立完成开源项目剥离云端依赖、私有化改造、授权封装、版本固化。
六、加分项
1、有视频弹幕、视频字幕、影视剧 / 监控视频文字提取实战经验;2、熟悉多模态 VLM 图文理解、图片内容审核、文字结构化抽取;3、有边缘机、工控机、国产化服务器本地部署适配经验;4、具备数据集标注、模型训练、评估指标优化(准确率、召回率)经验。
硬性门槛
必须有开源 OCR / 视频识别项目完整二次开发 + 本地私有化部署可演示项目或过往落地案例,无相关项目经验勿投。