得早学就创

AI系统与LLM推理优化实习生

招聘时间

即日起至 2027-05-13

招聘单位

英特尔

所在地区

上海

工作地点

上海市/上海/闵行区

学历要求

硕士

实习时长

每周4天，每天6小时

职责描述

职位概述

我们正在构建新一代大语言模型（LLM）推理系统，重点聚焦三个核心方向：

* GPU Kernel 与 Triton 类编程模型优化
* 高性能推理框架（Inference Framework）优化
* LLM 与 MoE 模型层优化
这是一个研究 + 工程结合的岗位，你将参与完整技术栈：

模型 → Kernel → 运行时 → 分布式系统，共同打造端到端的AI机架级推理软件系统。

主要职责

1. Triton与Kernel层优化

* 使用以下技术开发高性能GPU算子：
* Triton类编程模型
* CUDA或其他底层框架
* 优化关键计算路径：
* Attention及核心Tensor算子
* 内存访问模式与数据布局
* Kernel融合与执行效率
* 探索面向深度学习的编译器式优化方法
2. 推理框架优化（Inference Framework）

* 使用并优化主流LLM推理框架：
* vLLM、TensorRT-LLM、FasterTransformer等
* 设计和优化：
* batching与调度策略
* runtime执行效率
* 多模型与pipeline推理
* 分析系统瓶颈并进行端到端性能优化
3. 模型层优化（LLM & MoE）

* 实现并评估以下技术：
* KV cache优化与内存管理
* 动态/连续batching
* Speculative decoding
* 量化（INT8 / FP8 / 低比特）
* 探索混合专家模型及推理优化：
* 路由策略与负载均衡
* 专家并行与切分
* 通信与计算开销权衡
4. 研究与系统集成

* 阅读并复现前沿研究成果
* 将论文方法转化为可运行系统模块
* 在以下维度进行协同优化：
* 模型层
* Kernel层
* Runtime与分布式系统
5. 端到端系统开发

* 参与构建完整LLM推理系统：
* 模型执行层
* runtime与调度层
* 分布式推理系统
* 优化方向包括：
* 多GPU / 多节点扩展
* NCCL通信性能
* 系统级性能调优
任职要求

基础要求

* 计算机、电子或相关专业硕士或博士在读（必须）
* 扎实的编程能力（Python 必须，C++加分）
* 熟悉PyTorch及Transformer模型
* 具备良好的算法与系统基础
* 可保证至少6个月实习期
加分项

* 具备以下任一经验：
* GPU编程（CUDA / Triton等）
* LLM推理框架（vLLM、TensorRT-LLM等）
* 分布式系统或并行计算
* 了解以下方向：
* GPU架构或性能分析
* 模型量化或压缩
* MoE或大规模模型系统
我们期待你具备

* 能够完成从论文 → 实现 → 优化的闭环
* 对性能优化与系统问题有强烈兴趣
* 具备解决复杂技术问题的执行力
* 对大规模LLM系统如何高效运行有好奇心