|
|
51CTO旗下网站
|
|
移动端

智能化运维的探索与实践——Tech Neo 技术沙龙第十八期

今天, 由51CTO 主办的第十八期以“Tech Neo”为主题的技术沙龙活动如期举行,此次沙龙邀请了来自京东金融资深研发工程师张晨、日志易产品总监饶琛琳、资深云计算专家王强。三位老师分享不仅有智能化运维的方式方法,还有在各自领域的实践案例,希望可以给运维人员带来一些新的思考。

作者:王雪燕来源:51CTO|2018-01-27 17:29

【51CTO.com原创稿件】回顾运维发展,可划分为脚本、工具、平台和智能化四大时代。之所以有这样的演进主要原因有二:其一是大小型机,PC服务器,虚拟机,容器等基础设施的逐步增多;其二是分布式,微服务等软件规模暴增,调用关系也越来越复杂。面对如此庞大、复杂、多变的诸多系统,人力已经无法维护,开始探索新的方式:智能化运维。

Tech Neo 技术沙龙第十八期现场

今天, 由51CTO 主办的第十八期以“Tech Neo”为主题的技术沙龙活动如期举行,此次沙龙邀请了来自京东金融资深研发工程师张晨、日志易产品总监饶琛琳、资深云计算专家王强。三位老师分享不仅有智能化运维的方式方法,还有在各自领域的实践案例,希望可以给运维人员带来一些新的思考。

异常检测与根因分析

首位演讲的是从事智能运维监控平台的研发与实践多年的京东金融资深研发工程师张晨老师,他参与并主导了APM等产品的研发与应用,经历了多次618和双11的千万级TPS的运维保障,他分享的主题是异常检测与根因分析。

张晨·京东金融资深研发工程师

张晨的分享以智能运维的背景,难点,优势及适用于运维哪些领域为开端,过程中主要围绕采用异常检测的手段,从基础到高级的过程,根因分析从大量的数据中寻找造成故障的根本原因为核心展开。

张晨表示,传统异常检测存在适配性差、不同的应用和场景的阈值存在异同、大量个性化配置,人工基本不可维护等不足。面对这样的情况,就要采用动态阈值的异常检测、引入机器学习来应对。

在根因分析方面,常用技术方案存的不足主要体现在:基于的是网状的业务拓扑图降维后的数条链路,由于其具有不确定性;拓扑图只能反映出模块B调用了模块C,模块C调用了模块D;在哪条链路中的调用,无法确定是否连续调用,可能会导致根源分析的错误,造成误报;

针对这些不足,张晨分享了根因分析的改进方式、根因警告的原理、步骤和一些相关的真实案例。

HSLT项目--机器人智能化运维前身

第二位分享者是有十年IT生涯,两年高级管理,八年研发管理经验(云计算,平台,产品化),三年国家工程项目开发管理实施经验的王强老师。他先后就职于中软国际,IBM,青云等知名企业,分享主题为HSLT项目--机器人智能化运维前身。

王强·资深云计算专家

HSLT是IBM早期的一个Cloud项目,但是它的核心理念到现在依然领先,并且QingCloud青云借鉴其诸多设计原则,很多领域真正做到大规模线上复杂分布式系统故障无人干预自动恢复与处理。

王强介绍,HSLT目标是希望利用自动化,机器人,人工智能的技术达到极少数人管理超大规模系统环境的目的,从最底层的IAAS开始,到PAAS,SAAS层。集群规模大,产品和服务质量优先,偏向产品化平台化,行业监控允许等是HSLT经验适用范围和界限。

后续演讲围绕HSLT设计原则展开,过程中提到 Design for failure,ASAP,Scalable everything,Dependence inversion,Devops,TDD。

王强的分享还涉及很多互联网公司智能化运维的实践,如合理的架构分层、单元化部署、业务连续性管理等。

数据驱动的智能运维平台

最后分享的是日志易产品总监饶琛琳老师,他在运维领域深耕近十载,在监控、自动化运维、日志分析和智能运维等领域均有较深的研究和大规模实践经验,他分享的主题是数据驱动的智能运维平台。

饶琛琳·日志易产品总监

整个分享,从运维需求的本质出发,推导AIOps的架构设计和组成。过程中详细介绍其中最重要的几个场景:时序预测,异常检测,模式概要的分析原理与实现方式,以及对应的开源项目选择。

饶老师表示,更灵活、更易用的访问和分析数据,能分析过去散落在各组件中未利用上的业务数据和上下文,快速的探索和实验平台提供独特的洞擦力,是AIOps的三大作用。

从『系统组成』看AIOps架构可分为数据湖、自动化系统、记录系统、交互系统和监控生态圈几大模块。

智能运维的作用:异常检测、归因分析、智能警报、未来预测、能力分配、数据概要和主动监控。

智能运维的路径:异常检测 -> 主动监控;数据概要 -> 异常检测 -> 主动监控;未来预测 -> 容量规划 / 异常检测;根因分析 -> 智能警报 -> 自动化;

因大家热情高涨,不断地和三位老师就异常检测、监控报道、归因分析等内容进行探讨,不知不觉中,时间流走,本应十七点结束的沙龙,最终近十八点最后一波人才意犹未尽的离开。

透过这次交流,更加肯定的是实现运维智能化是运维工作未来的发展方向。但实现运维工作的流程化、标准化、自动化是实现运维智能化的前提,企业可以合理规划,前瞻性的布局。通过一段时间的积累和优化,逐步对信息系统进行改造,早日达到标准化、自动化的模式,为最终的智能化建立良好的基础。

51CTO于2016年开始举办主题为Tech Neo的技术沙龙,意指在于为IT技术人员提供一个高质量的学习交流的线下平台,目前仅限北京地区,周期为每月1次,每期围绕一个话题进行探讨,涉及人工智能、大数据、云计算、区块链、物联网等多个技术领域。

更多AI内容,请关注公众号:AI推手

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

【编辑推荐】

  1. 揭破CDN优化之谜—Tech Neo第十五期技术沙龙
  2. 未雨绸缪,迎接运维新时代—— Tech Neo第十六期技术沙龙
  3. 模糊网络边界的安全——Tech Neo第十七期技术沙龙
【责任编辑:wangxueyan TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

入侵的艺术

黑客也有优劣之分。很显然对他们的奖励之一是利用黑客手段非法入侵我们公司的安全站点或个人系统。另一种奖励可能是他们的黑客行为构成了黑...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊