职责描述
岗位职责
• 参与音频/视频大模型推理系统的开发与优化,基于 vLLM / SGLang 搭建与迭代推理服务
• 设计并实现高性能推理 Pipeline(加载、调度、解码、服务化)
• 参与 CUDA 算子开发与优化(Attention / Norm / Matmul 等),提升推理吞吐与延迟表现
• 分析与优化显存/内存使用(KV Cache、Batching、量化等)
• 使用 Profiling 工具进行性能分析(Nsight Systems / Nsight Compute)
• 参与向量检索或多模态数据处理模块(如 embedding / 索引)优化
任职要求
• 熟练掌握 C++(C++11/14/17),理解虚函数、模板、智能指针等核心特性
• 熟悉 Linux 开发环境、CMake、Git
• 具备 CUDA 编程基础,有 GPU 算子开发或优化经验优先
• 理解 Transformer 架构及大模型推理流程(prefill / decode / KV cache)
• 熟悉或了解以下任一方向:
◦ 推理框架:vLLM / SGLang
◦ 并行策略:TP / DP / Continuous Batching
◦ 推理优化:PagedAttention、CUDA Graph、量化(如 AWQ)
• 扎实的数据结构与计算机系统基础
加分项
• 有音频/视频模型(ASR / TTS / 多模态)推理或训练经验
• 有向量数据库或 ANN 索引经验(如 HNSW / DiskANN)
• 有完整推理引擎或 Serving 系统开发经验
• 熟悉 AI 编程工具(如 Cline / Cursor)用于代码生成与验证