实习岗位详情

大模型推理引擎研发工程师
 招聘时间
即日起 至 2026-10-01
 招聘单位
科大讯飞
 所在地区
合肥
 工作地点
安徽省/合肥市/蜀山区 科大讯飞语音产业基地
 学历要求
不限
 实习时长
每周5天,每天5小时
 职责描述
岗位简介
负责千亿/万亿级大模型推理引擎的架构设计、研发与性能优化,聚焦推理框架迭代、算子优化、显存调度及分布式推理落地,攻克大模型部署低延迟、高吞吐、显存瓶颈等核心问题,适配GPU、国产NPU异构平台,支撑大模型业务规模化、高性能落地。
岗位职责
1、负责大模型推理框架设计与研发,主导计算图编译、算子融合、动态批处理、推理调度等核心模块优化,持续提升框架通用性与推理性能。
2、深耕Transformer模型推理优化,落地Attention加速、模型量化、KV Cache优化、显存复用等技术,解决超大模型显存溢出、推理延迟高、吞吐低等工程痛点。
3、负责多机多卡分布式推理系统研发,优化张量并行、序列并行及跨设备通信调度,支撑万亿级参数模型分布式高效推理。
4、完成推理引擎及自定义高性能算子在昇腾、海光等国产AI加速卡的适配、迁移与性能调优,搭建国产化高性能推理体系。
5、跟进业界前沿推理技术与开源框架(vLLM/SGLang/TensorRTLLM),完成技术选型、方案落地与技术沉淀,赋能业务高效迭代。
任职要求
1、深刻理解Transformer推理机制,熟练运用FlashAttention、PagedAttention等主流加速技术,具备超大模型推理性能调优实战经验。
2、熟悉GPU/NPU异构硬件架构,掌握CUDA开发,有昇腾CANN、海光DCU、国产NPU算子开发与平台适配经验者优先。
3、精通C++/Python,具备高性能代码开发能力,熟悉分布式推理通信与调度机制,能独立排查并解决线上推理性能与稳定性问题。
4、实习时长不得低于5个月,只考虑应届毕业生,有转正HC。
相关实习岗位
查看更多实习岗位

分享

收藏

 

©版权所有 deizao.net(得早学就创) 粤ICP备2024216716号