职责描述
岗位职责:
1. 定期分析埋点数据、Grafana/Prometheus 等监控数据,发现系统异常、资源波动和潜在风险。
2. 协助梳理日志、指标、告警等数据链路,建立基础的数据分析和问题定位流程。
3. 参与自动化分析工具开发,包括数据清洗、异常统计、规则分析、报告生成等。
4. 探索基于历史数据的异常检测、趋势分析和故障预测方法。
5. 参与故障预测数据集建设,协助完成数据对齐、特征提取和效果评估。
6. 与监控、运维、硬件等团队协作,推动分析和预测能力逐步自动化。
任职资格:
1. 计算机、自动化、人工智能、统计、数学等相关专业。
2. 熟悉 Python,具备基础数据分析能力,了解 pandas、numpy 等工具。
3. 对日志、监控、时序数据分析感兴趣,有较好的问题定位能力。
4. 了解基础机器学习或异常检测方法,有相关项目经验加分。
5. 具备较好的工程实现和学习能力,能够独立推进分析与实验任务。
## 加分项
1. 有 AIOps、异常检测、预测性维护相关项目经验。
2. 熟悉 Prometheus/Grafana/Loki 等监控体系。
3. 了解时序建模、异常检测或预测算法。
4. 有日志、告警、监控数据处理经验。
5. 熟悉 sklearn、PyTorch、XGBoost 等工具。