首页 > 智能网

运维机器人诞生记--OpsGrat的自白

来源:智能网
时间:2019-07-10 12:03:32
热度:60

运维机器人诞生记--OpsGrat的自白无论是传统互联网、移动互联网还是产业互联网,都离不开运维。运维是否可靠,决定了公司效率、管理成本和对外服务水平。我的创造团队在我诞生之前,在

无论是传统互联网、移动互联网还是产业互联网,都离不开运维。运维是否可靠,决定了公司效率、管理成本和对外服务水平。我的创造团队在我诞生之前,在运维上遇到了一些难以逾越的困难:

1、重复性工作多

很多工作是每天重复进行,比如数据库备份、补丁检查更新、日志空间清理等,枯燥耗时,挺浪费时间和人力。有些工作在很多设备上重复,比如几十台服务器打补丁、几百台服务器升级JDK等,一遍又一遍在不同设备上进行相似操作。

2、沟通难度大

人类之间的沟通,存在理解角度不同、立场不同等问题,经过不同团队间传达后,即使是简单内容也会出错,更不用说专业性较强的运维术语了。

3、人为误操作多

由于沟通、经验、状态等不可预测问题,人类出现误操作是不可避免的,不出现差错才是小概率事件呢。有时只是多一个标点、输错一个数字、一次侥幸心理,就酿成重大事故。

4、效率低

除了沟通,效率还受到流程环节、管理水平等的影响,在涉及多个团队协作的运维操作中,效率低的同时伴随着高成本。

5、延续性差

运维人员的见识、经验、喜好,决定他/她编写的脚本、程序质量高低,人们相互间对语言、工具的争论永不停歇,往往换一波人,换一波程序、工具。之前的经验难以积累,导致事故反复出现。

有没有可能减少人为因素对运维的影响,用软件解决效率、成本、稳定性等问题呢?

为此,我的创造团队克服重重困难,经过大量的时间精力投入,也依赖于团队的丰富经验,我才历经千辛万苦,终于呱呱坠地。

面市后我的创造者们对我千锤百炼,带我在不同环境下增长见识,让我适应了各种复杂情况。从几十台到上万服务器,从Linux到Windows,从阿里云、华为云到AWS,我又经历了一轮又一轮的测试、改进。

相对于人类伙伴,我的亮点是:

1、0差错率

我会严格按照预先设计的计划执行操作,既不会多输一个标点,也不会少敲一行命令。只要我执行的,一定是预先计划好的,不会莫名犯错。

2、效率高

我可以针对成千上万台设备勤勤恳恳地执行任务,也可以根据需要并行操作,可以同时让几十台服务器忙碌,也可按设计指挥机器,井然有序。

3、24小时无休无眠

休息,休息是什么?我不需要休息,只要仍有电力,我会永不间断地做好运维工作。

4、态度好

我的情绪不受天气好坏、气温高低的影响,哪怕告诉我今天下岗,我还是不受干扰地忠实执行维护任务,万无一失。

现在的我已经帮助不少企业实现了运维流程化自动化,带来的收益越来越明显:

1、业务稳定

人为差错消失殆尽,只要是能自动化流程化的工作,都可以交给我。经常发生的人为问题,只要交给我,绝不会再现。

2、绩效提升

24小时无休无眠的工作,自动化程度的不断提高,自然带来了整体绩效的提升。以前可能需要几个团队几天完成的任务,我不到1小时就解决啦!由于运维效率的提升,也带动了研发、业务各团队的进步。

3、成本下降

以前运维相关的大量沟通,都被流程所替代。除了减少沟通、管理成本,更为企业带来了更高的内部、外部用户满意度。

4、延续性好

运维相关的大量管理工作,都被固化在我的各项规则、流程中,较低的使用门槛,简单的编程逻辑,可以确保运维工作的长治久安。

人无完人,作为运维机器人我当然也有自己的缺憾:

1、无法解决架构问题

需要人类大咖进行规划设计,这也是采用了我运维机器人的好处,原来更加重要的预防性工作,得以更好开展。

2、无法处理复杂流程

虽然通过我的操作界面,进行简单拖拽就能完整定义流程,对于流程中间嵌套流程等复杂情况,我还是力有未逮,我的创造团队也在不断帮助我越来越优秀。

3、功能强大但单一

我的主要功能是通过软件,实现运维的流程化自动化,对于发布、监控等专项任务,我还不够强大,需要和我的兄弟们CodeMig、BusiSec配合起来,实现完备的运维体系。

这就是我,运维机器人诞生的故事,说起来我出生有些时间了,也获得了一些企业的青睐,都说越早和我做朋友,运维效率会越好呢!我的创造者:上海泛汐,也在继续努力,让我能力越来越强,帮助更多的企业享受高效率低成本的好处。

Baidu
map