实习岗位详情

CPU算子与内核优化实习生
 招聘时间
即日起 至 2027-05-13
 招聘单位
英特尔
 所在地区
上海
 工作地点
上海市/上海/闵行区
 学历要求
本科
 实习时长
每周4天,每天3小时
 职责描述
职位描述

英特尔数据中心网络边缘AI团队致力于在英特尔架构上提供业界领先的AI性能。从基于Intel®
Xeon®处理器的超大规模数据中心到网络边缘节点,我们的性能工程师持续优化框架与算子库的核心计算路径,为全球数百万开发者和客户提供支持。


我们正在寻找一名实习生加入CPU性能工程团队,针对现代AI工作负载进行算子级优化,包括基于Transformer的LLM、多模态VLM/VLA模型、传统CNN以及MLP等。你将设计、实现并调优高性能CPU内核,将英特尔架构优势(AVX-512、AMX、VNNI)转化为实际性能收益。

工作职责

*
设计并手工优化Transformer算子(Attention、GEMM、LayerNorm、RMSNorm、RoPE、MoE、Softmax)及经典算子(Conv2D
/ Conv3D、Depthwise Conv、Winograd、im2col、Pooling、BatchNorm、RNN / LSTM / GRU)
* 使用Intel® AVX2 / AVX-512 / AMX / VNNI指令进行SIMD优化,并在必要时支持ARM Neon / SVE
* 应用并行优化策略(OpenMP、TBB、线程池设计),并充分利用CPU微架构特性(缓存分块、NUMA亲和性、预取、内存对齐、避免伪共享)
* 实现并优化低比特量化内核(INT8 / INT4 / W4A16 / W8A8),用于LLM / VLM推理,充分利用AMX与VNNI提升性能功耗比
* 将自定义算子集成到生产级框架与运行时中,如Intel® oneDNN、PyTorch CPU后端、ONNX
Runtime、llama.cpp、MLC-LLM、XNNPACK
* 使用Intel® VTune™ Profiler、Linux perf及roofline模型进行系统化性能分析,定位瓶颈并量化优化效果
* 为英特尔内部性能库贡献可复用内核、优化模板和最佳实践文档
任职要求

基本要求

候选人需具备在工作所在国家合法工作的资格。

* 计算机科学、电气工程、计算机工程、并行计算或相关专业本科(高年级)、硕士或博士在读
* 可连续实习至少3个月(全职或接近全职)
* 熟练掌握C / C++,深入理解计算机体系结构(CPU流水线、缓存层级、内存模型、SIMD执行)
* 至少具备以下之一的实践经验:
* x86 SIMD指令(AVX2 / AVX-512 / AMX)
* ARM Neon / SVE
* 基于OpenMP / TBB的多线程优化
* 高性能CPU GEMM或卷积实现(如oneDNN、OpenBLAS、XNNPACK、ggml)
* 熟悉性能分析工具(Intel® VTune™、perf),并能将分析结果转化为具体优化方案
加分项

* 在oneDNN、OpenVINO™、llama.cpp、ggml、XNNPACK、OpenBLAS、PyTorch或ONNX
Runtime等项目中有开源贡献
* 熟悉CNN推理优化(Winograd、im2col+GEMM、Direct Conv、NCHW / NHWC布局转换)
* 熟悉LLM推理优化(KV-cache、连续batching、推测解码、低比特量化)
* 熟悉编译器技术(LLVM、MLIR、TVM)或自动调优框架(AutoTVM、Ansor)
有边缘设备或端侧部署经验(ARM服务器、AI PC、嵌入式SoC)
相关实习岗位
查看更多实习岗位

分享

收藏

 

©版权所有 deizao.net(得早学就创) 粤ICP备2024216716号