职责描述
工作职责:
工作职责:
1、探索研发针对大语言模型、多模态大模型、MoE模型、StableDiffusion,agent等模型的压缩技术,包括但不限于量化、蒸馏、剪枝、稀疏化等;
2、参与/负责小红书业务场景中的模型压缩技术的实现和优化,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效;
3、参与/负责针对英伟达GPU、华为昇腾NPU等不同的计算硬件,制定不同的模型压缩方案并在业务落地;
任职资格:
任职资格:
1、熟悉蒸馏、剪枝、量化等模型压缩常用方案;
2、熟悉至少一种主流的大模型训练或推理框架(PyTorch / Megatron / vLLM / SGLang等)的原理和实现;
3、熟练使用Python/C++至少一种语言,并具备良好的代码质量和风格;
4、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
加分项:
有优秀开源项目经历;
参与或主导过大型项目业务落地或有压缩相关论文;
有大模型压缩或小型化模型设计经验