职责描述
一、岗位定位
我们正在寻找一名具备工程能力与探索精神的 AI 助理,参与多模态技术(图像 / 视频 / 音频 / 3D)与大模型生态相关的研发、部署与实验工作。该角色不仅是执行者,更需要具备较强的主动性,能够在不完全定义的问题空间中自主推进项目。
二、技能要求(Skill Expectations)
1. Coding Agent 与模型工具链
需要熟悉并能够高效使用主流 Coding Agent 体系,包括但不限于:
Codex / Claude / Open Code 等代码生成与辅助工具
理解并能够使用 MCP(Model Context Protocol)及其 Skills 体系
能够将 Agent 能力嵌入实际开发流程,而非停留在表层调用
核心要求:不仅“会用”,而是理解其工作范式,并能组合使用。
2. 多媒体与多模态技术能力
需要对以下方向具备兴趣,并愿意深入探索:
生成类技术:AI 视频生成、图像生成 / 编辑(包括 2D → 3D)、语音处理(如变声器、语音生成)、动作捕捉
感知类技术:图像分割、计算机视觉、音频处理
要求说明:
不要求全部方向已有深度经验
但必须具备主动深入技术细节的意愿
有底层经验(如图像处理、语音信号处理)者优先
3. 大模型生态基础
需要具备对 LLM 生态的结构性理解,包括:
LLM / VLM / Embedding / Agent 等基本概念
Token 机制与成本模型
API 调用与工具使用
Prompt → Response 的完整链路理解
期望状态:
不仅知道“能做什么”
而是理解“为什么这样设计”
4. 前端与生成式内容工程能力
掌握基础 JavaScript 开发能力
熟悉或能够快速上手类似 Remotion 的框架
能通过代码生成视频、动画或数字内容
重点不是 UI,而是:
Code → Media Asset 的生成能力
5. 代码阅读与部署能力
能够阅读复杂开源项目源码
能借助 Coding Agent 快速理解 Repo 结构
能独立完成环境配置与部署
典型工作流程:
GitHub Repo
↓
环境搭建(依赖 / CUDA / 模型权重)
↓
本地 / 服务器运行
↓
修改与实验
6. Prompt Engineering
有实际 Prompt 调优经验
理解 Prompt 与模型输出之间的映射关系
能够系统性优化(而非随机试错)
三、个人品质(Personal Traits)
1. 高沟通频率与透明度
能接受高频 Sync-up
主动汇报进展与问题
避免被动或消极沟通(如拖延、回避)
2. Hackathon / 极限编程风格
优先考虑具备以下特征的候选人:
参加过 Hackathon
适应快速迭代 + 高强度开发节奏
能在不完备条件下快速产出可运行原型
3. 表达能力与系统设计能力
能清晰表达复杂技术问题
能用结构化方式描述系统
推荐能力:
Whiteboard / 手绘表达:
[模块 A] → [模块 B] → [模块 C]
↑ 数据流 / 控制流 ↑
4. 知识管理与开发者习惯
有写博客或技术记录习惯
重视文档与知识沉淀
具备 Developer Mindset(而非仅执行任务)
5. 主观能动性(核心要求)
这是最关键的评价维度。
期望你具备以下能力:
模糊目标
↓
问题拆解
↓
制定策略
↓
自主推进
明确一点:
不适合仅等待明确 To-do List 的执行型角色
更适合能够“自己定义问题并解决”的人
四、岗位职责(Responsibilities)
1. 模型部署与实验
部署多模态模型(图像 / 视频 / 音频等)
进行实验、调参和效果验证
在充足算力环境下(A100 / H100)进行试错
工作形态:
模型 → 部署 → 实验 → 调优 → 再实验
2. 资源调研与技术编排
通过多渠道收集与整理技术资源:
小红书
知乎
Product Hunt
GPT / Claude 深度调研
输出形式:
工具列表 + 分类 + 使用建议 + 组合方案
3. 数据集与 Benchmark 构建
收集或构建测试数据集(Datasets)
设计 Benchmark 评测标准
对模型或算法进行系统评估
核心目标:
让实验结果可量化、可对比、可复现
五、总结(角色本质)
这个岗位的本质不是“助理”,而是:
工程执行力 + 技术探索能力 + 自驱动能力
你需要能够在以下状态中工作:
方向明确,但路径不明确
工具很多,但需要自己组合
目标较高,但过程高度不确定
如果你习惯:
等待任务分配
只做明确边界内的工作
那么这个岗位并不适合。
需要你主动探索、快速试错