实习岗位详情

AI系统与LLM推理优化实习生
 招聘时间
即日起 至 2027-05-13
 招聘单位
英特尔
 所在地区
上海
 工作地点
上海市/上海/闵行区
 学历要求
硕士
 实习时长
每周4天,每天6小时
 职责描述
职位概述

我们正在构建新一代大语言模型(LLM)推理系统,重点聚焦三个核心方向:

* GPU Kernel 与 Triton 类编程模型优化
* 高性能推理框架(Inference Framework)优化
* LLM 与 MoE 模型层优化
这是一个研究 + 工程结合的岗位,你将参与完整技术栈:

模型 → Kernel → 运行时 → 分布式系统,共同打造端到端的AI机架级推理软件系统。

主要职责

1. Triton与Kernel层优化

* 使用以下技术开发高性能GPU算子:
* Triton类编程模型
* CUDA或其他底层框架
* 优化关键计算路径:
* Attention及核心Tensor算子
* 内存访问模式与数据布局
* Kernel融合与执行效率
* 探索面向深度学习的编译器式优化方法
2. 推理框架优化(Inference Framework)

* 使用并优化主流LLM推理框架:
* vLLM、TensorRT-LLM、FasterTransformer等
* 设计和优化:
* batching与调度策略
* runtime执行效率
* 多模型与pipeline推理
* 分析系统瓶颈并进行端到端性能优化
3. 模型层优化(LLM & MoE)

* 实现并评估以下技术:
* KV cache优化与内存管理
* 动态/连续batching
* Speculative decoding
* 量化(INT8 / FP8 / 低比特)
* 探索混合专家模型及推理优化:
* 路由策略与负载均衡
* 专家并行与切分
* 通信与计算开销权衡
4. 研究与系统集成

* 阅读并复现前沿研究成果
* 将论文方法转化为可运行系统模块
* 在以下维度进行协同优化:
* 模型层
* Kernel层
* Runtime与分布式系统
5. 端到端系统开发

* 参与构建完整LLM推理系统:
* 模型执行层
* runtime与调度层
* 分布式推理系统
* 优化方向包括:
* 多GPU / 多节点扩展
* NCCL通信性能
* 系统级性能调优
任职要求

基础要求

* 计算机、电子或相关专业硕士或博士在读(必须)
* 扎实的编程能力(Python 必须,C++加分)
* 熟悉PyTorch及Transformer模型
* 具备良好的算法与系统基础
* 可保证至少6个月实习期
加分项

* 具备以下任一经验:
* GPU编程(CUDA / Triton等)
* LLM推理框架(vLLM、TensorRT-LLM等)
* 分布式系统或并行计算
* 了解以下方向:
* GPU架构或性能分析
* 模型量化或压缩
* MoE或大规模模型系统
我们期待你具备

* 能够完成从论文 → 实现 → 优化的闭环
* 对性能优化与系统问题有强烈兴趣
* 具备解决复杂技术问题的执行力
* 对大规模LLM系统如何高效运行有好奇心
相关实习岗位
查看更多实习岗位

分享

收藏

 

©版权所有 deizao.net(得早学就创) 粤ICP备2024216716号