职责描述
职位描述
英特尔数据中心网络边缘AI团队致力于在英特尔架构上提供业界领先的AI性能。从基于Intel®
Xeon®处理器的超大规模数据中心到网络边缘节点,我们的性能工程师持续优化框架与算子库的核心计算路径,为全球数百万开发者和客户提供支持。
我们正在寻找一名实习生加入CPU性能工程团队,针对现代AI工作负载进行算子级优化,包括基于Transformer的LLM、多模态VLM/VLA模型、传统CNN以及MLP等。你将设计、实现并调优高性能CPU内核,将英特尔架构优势(AVX-512、AMX、VNNI)转化为实际性能收益。
工作职责
*
设计并手工优化Transformer算子(Attention、GEMM、LayerNorm、RMSNorm、RoPE、MoE、Softmax)及经典算子(Conv2D
/ Conv3D、Depthwise Conv、Winograd、im2col、Pooling、BatchNorm、RNN / LSTM / GRU)
* 使用Intel® AVX2 / AVX-512 / AMX / VNNI指令进行SIMD优化,并在必要时支持ARM Neon / SVE
* 应用并行优化策略(OpenMP、TBB、线程池设计),并充分利用CPU微架构特性(缓存分块、NUMA亲和性、预取、内存对齐、避免伪共享)
* 实现并优化低比特量化内核(INT8 / INT4 / W4A16 / W8A8),用于LLM / VLM推理,充分利用AMX与VNNI提升性能功耗比
* 将自定义算子集成到生产级框架与运行时中,如Intel® oneDNN、PyTorch CPU后端、ONNX
Runtime、llama.cpp、MLC-LLM、XNNPACK
* 使用Intel® VTune™ Profiler、Linux perf及roofline模型进行系统化性能分析,定位瓶颈并量化优化效果
* 为英特尔内部性能库贡献可复用内核、优化模板和最佳实践文档
任职要求
基本要求
候选人需具备在工作所在国家合法工作的资格。
* 计算机科学、电气工程、计算机工程、并行计算或相关专业本科(高年级)、硕士或博士在读
* 可连续实习至少3个月(全职或接近全职)
* 熟练掌握C / C++,深入理解计算机体系结构(CPU流水线、缓存层级、内存模型、SIMD执行)
* 至少具备以下之一的实践经验:
* x86 SIMD指令(AVX2 / AVX-512 / AMX)
* ARM Neon / SVE
* 基于OpenMP / TBB的多线程优化
* 高性能CPU GEMM或卷积实现(如oneDNN、OpenBLAS、XNNPACK、ggml)
* 熟悉性能分析工具(Intel® VTune™、perf),并能将分析结果转化为具体优化方案
加分项
* 在oneDNN、OpenVINO™、llama.cpp、ggml、XNNPACK、OpenBLAS、PyTorch或ONNX
Runtime等项目中有开源贡献
* 熟悉CNN推理优化(Winograd、im2col+GEMM、Direct Conv、NCHW / NHWC布局转换)
* 熟悉LLM推理优化(KV-cache、连续batching、推测解码、低比特量化)
* 熟悉编译器技术(LLVM、MLIR、TVM)或自动调优框架(AutoTVM、Ansor)
有边缘设备或端侧部署经验(ARM服务器、AI PC、嵌入式SoC)