职责描述
职位描述
1、基于类 cuda 环境, 设计并实现高性能算子, 例如 gemm, Attention, FFN, CNN 等。
2、结合芯片微架构特性进行极致调优, 优化核心算子性能逼近理论设计上限。
3、开发性能评估工具, 并总结性能测试报告。
4、编写算子设计文档与交付文档,保障算子库的稳定性与可维护性。
职位要求
1. 精通 C/C++, 熟悉 Linux 开发环境, 掌握 CMake, Git 等工程化工具, 必须具备良好的代码风格与调试能力。
2. 深入理解 CPU/GPU 并行计算原理(如 SIMD/SIMT 架构), 有 CUDA/OpenCL/OpenMP 等编程经验者优先, 能独立完成简单算子的汇编实现者优先。
3. 扎实的线性代数(矩阵运算, 特征分解), 数值分析(精度优化、数值稳定性)基础, 了解深度学习基本算子(卷积, 池化, 矩阵乘法等)的数学模型。
4. 有独立进行过大模型算子优化相关工作成果者优先。