得早学就创

AI GPU 架构性能优化实习生

招聘时间

即日起至 2026-05-08

招聘单位

英特尔

所在地区

上海

工作地点

上海市/上海/闵行区

学历要求

本科

实习时长

每周4天，每天6小时

职责描述

关于这个岗位

如果你对 GPU 架构、底层性能优化、AI kernel 设计以及软硬件协同设计（HW/SW Co‑Design）充满兴趣，希望参与直接影响下一代
Intel GPU IP和AI加速器性能的核心工程工作，那么这个岗位非常适合你。

作为AI架构性能优化实习生（GPU Architecture 方向），你将加入Intel GPU Compute Architecture团队
，深入参与GPU 核心计算 kernel 的分析、优化与验证工作，并通过真实 AI 工作负载，对 GPU IP的功能与性能进行系统性评估。

你将站在AI软件和GPU硬件的交汇点, 理解软件如何“逼出”硬件的极限性能。

你将做什么（实习内容）

在导师和团队的指导下，你将有机会参与：

· 面向 GPU 的核心计算 kernel 优化

o 分析并优化 AI / 数值计算中的关键 GPU kernels（如 GEMM、Attention、算子融合等）

o 研究 kernel 与 GPU 架构（SIMD / memory hierarchy / scheduling）的映射关系

· AI Model 数值特性与高效计算研究（Numeric & Sparse AI）

o 研究 AI 模型的数值特性（numeric behavior），包括数值稳定性、精度‑性能权衡，以及低精度数值计算（FP16 / BF16 / INT8
/ FP8 等）在 GPU 上的表现

o 探索稀疏计算与量化感知技术（Sparsity / Quantization‑aware），分析其对GPU kernel实现、memory
access与调度策略的影响，并反馈至架构设计决策

· 基于真实 AI 工作负载的 GPU IP 验证

o 复现和构建具有代表性的AI推理 / 训练工作负载

o 利用workload 验证 GPU IP的功能正确性、性能特征和边界行为

· 面向 GPU 架构的性能建模与分析

o 构建 kernel / workload 的性能画像

o 使用性能分析工具，定位性能瓶颈（compute / memory / pipeline / occupancy 等）

* 分析不同架构设计对性能的影响，并形成可复用的分析方法
· 软硬件协同设计（HW/SW Co‑Design）

o 将 kernel 和 workload 侧的发现反馈给 GPU 架构 / IP 设计团队

o 支持下一代 GPU 架构在 AI 场景下的设计决策

这是一个偏工程实践 + 学习成长型的实习岗位，而非纯研究或纯应用开发。

不要求你什么都会，但希望你对底层原理有兴趣、愿意深入、能从数据中找答案。

我们希望你具备

必备条件

* 本科、硕士或博士在读，专业包括（但不限于）：计算机科学 / 计算机工程 / 电子工程 / 相关理工科专业
* 熟悉C/C++或Python，有较好的代码能力，能够用于模型、数据或系统分析任务
* 对 GPU / 并行计算 / 性能优化有强烈兴趣
* 对人工智能基础有系统理解，包括常见模型和算法
* 对AI 模型的数值计算特性有基础兴趣或认知
* 对计算机系统有基础认知（如 CPU/GPU、内存、并行执行与性能分析等）
* 具备良好的英语听说读写能力，能够在全球化工程团队中进行有效的技术沟通与协作。
不要求你什么都会，但希望你对底层原理有兴趣、愿意深入、能从数据中找答案。

加分项（有更好，没有也欢迎投递）

* 较强的逻辑分析和问题拆解能力
* 有课程项目、实验室或实习中接触性能优化、系统分析的经历
* 有 GPU kernel / CUDA / OpenCL / SYCL / Triton 等相关经验
* 对 AI 模型的数值计算特性有理解或兴趣，涵盖低精度与量化计算、稀疏计算及其精度‑性能权衡，并关注其对 GPU 执行与性能优化的影响
* 接触过性能优化课程项目/编译器 / 并行计算 / 系统方向研究或实习
* 喜欢动手实验、调参数、看 profiling 数据、分析“为什么慢”，把软件行为和硬件结构对起来理解
* 对 AI 系统方向（而不只是模型本身）有长期兴趣

你能收获什么

* 参与 GPU 架构团队的核心工程工作
* 深入理解：AI workload → GPU Kernel → GPU IP 设计
* 为未来从事 AI Kernel、编译器与并行计算、芯片/软件协同方向打下基础