得早学就创

图片及视觉 OCR & 视频识别二次开发工程师（本地部署 /

招聘时间

即日起至 2026-06-12

招聘单位

芍岫股份

所在地区

上海

工作地点

上海市/上海市/宝山区上置名人天地

学历要求

本科

实习时长

每周5天，每天3小时

职责描述

岗位职责
注：有大模型开发经验优先
1、基于开源 OCR、视频帧文字识别项目做二次开发、定制改造、算法调优，适配业务图片、短视频、长视频文字识别场景；2、负责开源项目本地私有化部署、环境适配、Docker 打包、离线化改造，无公网依赖落地；3、图像预处理、视频帧抽取、文字检测 + 识别、版面分析、文本结构化提取优化，提升复杂场景识别准确率；4、模型轻量化、推理加速、量化压缩（ONNX/TensorRT），适配 CPU/GPU 本地服务器、边缘设备部署；5、封装标准化 API 接口、Web 后台、批量识别任务调度，对接业务系统；6、维护迭代开源版本，修复 Bug、适配特殊字体、倾斜、遮挡、模糊、逆光等复杂场景。
任职技术要求（核心）
一、基础学历与项目经验
1、本科及以上，计算机、人工智能、图像处理、模式识别、软件工程相关专业；2、OCR / 视频图像识别、开源项目二次开发、本地私有化部署实战经验；3、有PaddleOCR、EasyOCR、Tesseract、MMOCR、CRNN、YOLO 文字检测等开源项目二次开发落地经验优先。
二、编程语言与工程基础
1、熟练 Python，熟练使用 Git、Linux 环境操作、Shell 脚本；2、熟悉前后端基础，能基于 FastAPI/Flask 封装识别接口、简单 Web 管理页面；3、熟悉 Docker、容器化部署、离线镜像制作、服务器运维。
三、图像 & 视频处理技术
1、精通 OpenCV，熟练图像预处理：降噪、二值化、透视矫正、倾斜校正、裁剪、对比度增强；2、熟练 FFmpeg 视频解码、帧抽取、关键帧筛选、短视频 / 长视频抽帧 OCR；3、理解图文文字识别全流程：文本检测 + 文本识别 + 后处理纠错。
四、深度学习 & 开源框架
1、熟悉 PyTorch/TensorFlow 深度学习框架，能看懂开源模型网络结构；2、熟悉主流 OCR 开源项目源码结构，能改配置、调参、 fine-tune 微调、自定义训练数据集；3、掌握 YOLO 检测、CRNN、SVTR、Transformer-OCR 等文字识别经典模型；4、熟悉模型导出：PyTorch → ONNX → TensorRT/NCNN 量化、推理加速、轻量化适配。
五、本地部署 & 私有化要求
1、有内网离线、本地私有化部署经验，能解决依赖冲突、版本兼容、GPU/CPU 环境适配；2、熟悉 Windows/Linux 本地服务器部署，能做性能调优、并发处理、批量任务调度；3、可独立完成开源项目剥离云端依赖、私有化改造、授权封装、版本固化。
六、加分项
1、有视频弹幕、视频字幕、影视剧 / 监控视频文字提取实战经验；2、熟悉多模态 VLM 图文理解、图片内容审核、文字结构化抽取；3、有边缘机、工控机、国产化服务器本地部署适配经验；4、具备数据集标注、模型训练、评估指标优化（准确率、召回率）经验。
硬性门槛
必须有开源 OCR / 视频识别项目完整二次开发 + 本地私有化部署可演示项目或过往落地案例，无相关项目经验勿投。