得早学就创

大模型推理引擎研发工程师

招聘时间

即日起至 2026-10-01

招聘单位

科大讯飞

所在地区

合肥

工作地点

安徽省/合肥市/蜀山区科大讯飞语音产业基地

学历要求

不限

实习时长

每周5天，每天5小时

职责描述

岗位简介
负责千亿/万亿级大模型推理引擎的架构设计、研发与性能优化，聚焦推理框架迭代、算子优化、显存调度及分布式推理落地，攻克大模型部署低延迟、高吞吐、显存瓶颈等核心问题，适配GPU、国产NPU异构平台，支撑大模型业务规模化、高性能落地。
岗位职责
1、负责大模型推理框架设计与研发，主导计算图编译、算子融合、动态批处理、推理调度等核心模块优化，持续提升框架通用性与推理性能。
2、深耕Transformer模型推理优化，落地Attention加速、模型量化、KV Cache优化、显存复用等技术，解决超大模型显存溢出、推理延迟高、吞吐低等工程痛点。
3、负责多机多卡分布式推理系统研发，优化张量并行、序列并行及跨设备通信调度，支撑万亿级参数模型分布式高效推理。
4、完成推理引擎及自定义高性能算子在昇腾、海光等国产AI加速卡的适配、迁移与性能调优，搭建国产化高性能推理体系。
5、跟进业界前沿推理技术与开源框架（vLLM/SGLang/TensorRTLLM），完成技术选型、方案落地与技术沉淀，赋能业务高效迭代。
任职要求
1、深刻理解Transformer推理机制，熟练运用FlashAttention、PagedAttention等主流加速技术，具备超大模型推理性能调优实战经验。
2、熟悉GPU/NPU异构硬件架构，掌握CUDA开发，有昇腾CANN、海光DCU、国产NPU算子开发与平台适配经验者优先。
3、精通C++/Python，具备高性能代码开发能力，熟悉分布式推理通信与调度机制，能独立排查并解决线上推理性能与稳定性问题。
4、实习时长不得低于5个月，只考虑应届毕业生，有转正HC。