以数据为驱动的AIOps平台
2021-10-18 17:11:53 6.28MB AIOps
阿里巴巴高级技术专家 王肇刚(梓弋)在2018云栖大会·上海峰会中做了题为《AIOPS智能监控在阿里巴巴集团的成功实践》的分享,就从Devops到AIOps的转变、阿里巴巴集团的智能监控场景实战以及阿里巴巴AIOps智能监控产品体系等方面的内容做了深入的分析。
2021-09-24 00:31:45 6.5MB 大数据和人工智能
1
本文是智能运维方向论文中较早而且较有影响力的一片文章,首次提出使用机器学习的方法来帮助运维人员自动配置异常检测器,并且取得的较好的性能,虽然有监督的方式仍具有局限性,并且最终的性能指标并不是很高,但Opprentice系统的提出仍然为实际运维中异常检测的工作有很大借鉴价值,在此,简单的对该文章进行翻译,对于和我一样英语水平不高的同学,可以快速浏览一下,了解文章的主要思想和大致路线,以提高读文章的速度。 原本想复现一下,后来看到裴丹老师的一些新论文中,已经找到了更好的解决方式,而且有一篇WWW2018的文章还有代码,准备先看新文章了,GITHUB上有这篇文章的部分代码重现,可在文末参考资料中点击链接进入,如果有完整重现,请联系我分享一下。
2021-09-16 17:46:34 1.85MB AIops 异常检测 机器学习
1
1.概述:我们离AIOps理想王国还有多远分四个模块,首先我们了解和一起探讨一下,大家都在提AIOps,我们AIOps理想王国到底离咱们现在还有多远,我们一起探讨一下。我们探讨这个问题时候考虑梦想或者理想是什么:第一个,我们不背锅,我相信在座做运维的同学肯定有背锅的经历,如果我们实施AIOps让大家不用再背锅了,这算是第一个理想。第二个理想,不用再起夜(半夜被叫醒),这个事情经常会发生。我的团队,包括我自己,也会由于线上问题半夜起来操作线上服务,我们希望有了AIOps之后这是要实现的第二个理想;第三个理想,我们不用去7×24小时值班,尤其618、国庆、双十一、双十二,各种节日非常多,这种情况下
2021-09-16 12:28:55 2.12MB 智能运维:从0搭建AIOps系统
1
织云自动化运维体系的介绍,可以打开思路,提供不一样的解决方案,毕竟大厂,很多的思想可以让我们借鉴学习
2021-09-07 05:51:58 7.28MB AIOps
1
我们生活在一个数字化的社会中,而运维则是这个数字社会的一个基础设施级别的技术。运维做得不好,各行各业,无论是金融、电信、能源、工业制造、互联网、物联网,都不能高效、稳定、可靠地运转。既然运维这么重要,为什么还常出现各种各样的、甚至影响非常大的故障呢?(见下图)。本质原因是我们现在遇到了一个非常大的矛盾。这个矛盾就是当前运维所大量依赖的人力决策已经无法应对当前运维所面临的挑战(见下图)。随着互联网、移动互联网迅猛发展,用户越来越挑剔、对应用软件的用户体验要求越来越高。而我们知道,应用软件都是建立在一个庞大、复杂、跨协议层的大型分布式系统之上的。而这个分布式系统的技术、软件、配置通常会不断快速地演
2021-08-24 20:55:39 962KB 基于AIOps的无人运维
1
DataOps和AIOps 在腾讯游戏运维团队的运营实践.pdf
2021-08-23 13:04:40 14.89MB DataOps
菅骁翔-云计算运维管理最佳实践.pdf 陆增义-阿里巴巴智能数据中心AIOps演进.pdf 乔斌-超大型运维平台的面向终态设计_脱敏.pdf
2021-08-23 10:51:44 13.02MB AIOPS
1
主要是智能运维的基础概念解释,包括运维的发展过程,每个阶段的优缺点,智能运维的概念,优点等。还包括智能运维的目标、应用场景等等
2021-08-18 15:34:03 30KB AIOps 智能运维
1
浙江移动私有云AIOps实践.pdf
2021-08-13 09:02:47 2.84MB AIOps实践