得早学就创

CPU算子与内核优化实习生

招聘时间

即日起至 2027-05-13

招聘单位

英特尔

所在地区

上海

工作地点

上海市/上海/闵行区

学历要求

本科

实习时长

每周4天，每天3小时

职责描述

职位描述

英特尔数据中心网络边缘AI团队致力于在英特尔架构上提供业界领先的AI性能。从基于Intel®
Xeon®处理器的超大规模数据中心到网络边缘节点，我们的性能工程师持续优化框架与算子库的核心计算路径，为全球数百万开发者和客户提供支持。

我们正在寻找一名实习生加入CPU性能工程团队，针对现代AI工作负载进行算子级优化，包括基于Transformer的LLM、多模态VLM/VLA模型、传统CNN以及MLP等。你将设计、实现并调优高性能CPU内核，将英特尔架构优势（AVX-512、AMX、VNNI）转化为实际性能收益。

工作职责

*
设计并手工优化Transformer算子（Attention、GEMM、LayerNorm、RMSNorm、RoPE、MoE、Softmax）及经典算子（Conv2D
/ Conv3D、Depthwise Conv、Winograd、im2col、Pooling、BatchNorm、RNN / LSTM / GRU）
* 使用Intel® AVX2 / AVX-512 / AMX / VNNI指令进行SIMD优化，并在必要时支持ARM Neon / SVE
* 应用并行优化策略（OpenMP、TBB、线程池设计），并充分利用CPU微架构特性（缓存分块、NUMA亲和性、预取、内存对齐、避免伪共享）
* 实现并优化低比特量化内核（INT8 / INT4 / W4A16 / W8A8），用于LLM / VLM推理，充分利用AMX与VNNI提升性能功耗比
* 将自定义算子集成到生产级框架与运行时中，如Intel® oneDNN、PyTorch CPU后端、ONNX
Runtime、llama.cpp、MLC-LLM、XNNPACK
* 使用Intel® VTune™ Profiler、Linux perf及roofline模型进行系统化性能分析，定位瓶颈并量化优化效果
* 为英特尔内部性能库贡献可复用内核、优化模板和最佳实践文档
任职要求

基本要求

候选人需具备在工作所在国家合法工作的资格。

* 计算机科学、电气工程、计算机工程、并行计算或相关专业本科（高年级）、硕士或博士在读
* 可连续实习至少3个月（全职或接近全职）
* 熟练掌握C / C++，深入理解计算机体系结构（CPU流水线、缓存层级、内存模型、SIMD执行）
* 至少具备以下之一的实践经验：
* x86 SIMD指令（AVX2 / AVX-512 / AMX）
* ARM Neon / SVE
* 基于OpenMP / TBB的多线程优化
* 高性能CPU GEMM或卷积实现（如oneDNN、OpenBLAS、XNNPACK、ggml）
* 熟悉性能分析工具（Intel® VTune™、perf），并能将分析结果转化为具体优化方案
加分项

* 在oneDNN、OpenVINO™、llama.cpp、ggml、XNNPACK、OpenBLAS、PyTorch或ONNX
Runtime等项目中有开源贡献
* 熟悉CNN推理优化（Winograd、im2col+GEMM、Direct Conv、NCHW / NHWC布局转换）
* 熟悉LLM推理优化（KV-cache、连续batching、推测解码、低比特量化）
* 熟悉编译器技术（LLVM、MLIR、TVM）或自动调优框架（AutoTVM、Ansor）
有边缘设备或端侧部署经验（ARM服务器、AI PC、嵌入式SoC）