|
|
51CTO旗下网站
|
|
移动端

谷歌与FB全球大宕机原因披露

要注意的是,虽然两家公司提供的服务都在比较相近的时间内出现了严重的宕机问题,再加上有很多捕风捉影的消息对这次事故作了一些吸人眼球的解读,但这两次宕机事故并无直接关联。实际上,完全是不同的原因导致宕机事故的发生。

作者:h4cd 来源:开源中国|2019-03-15 09:45

现在,事件有了***的进展,两家科技巨头终于正式回应了各自宕机事故的原因。

要注意的是,虽然两家公司提供的服务都在比较相近的时间内出现了严重的宕机问题,再加上有很多捕风捉影的消息对这次事故作了一些吸人眼球的解读,但这两次宕机事故并无直接关联。实际上,完全是不同的原因导致宕机事故的发生。

谷歌

谷歌发布了 12 日大面积服务中断事故的分析报告,指出系 SRE 超载系统使得 Google 云存储错误率提高导致。

△服务中断时间是 03-12 18:40-03-12 22:50 (太平洋标准时间)

12日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问题,包括北美洲、南美洲、欧洲和亚洲的部分地区都受到影响,谷歌随后承认出现故障,谷歌云平台状态页面(Google Cloud Status Dashboard)显示,此次故障影响了谷歌云存储的所有区域。

当地时间 14 日,谷歌发布了针对该事件的分析报告。

谷歌表示内部 blob(大型数据对象)存储服务经历了 4 小时 10 分钟的服务中断。

分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;3 月 12 日,为了减少资源使用,SRE 进行了配置更改,其副作用是使系统的关键部分超载以查找 blob 数据的位置,而增加的负载最终导致级联故障。

更具体的,12 日 18:40 到 22:50,谷歌内部 blob 存储服务错误率提高,平均错误率为 20%,事件发生时错误率为 31%,用户可见的 Google 服务,包括使用 blob 存储服务的 Gmail、照片和 Google 云硬盘错误率也提高了,如果没有这些服务中内置的缓存和冗余机制极大地降低了用户影响,那么后果会更加严重。

此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。

谷歌表示非 Google 云平台服务受到的影响将会有单独的事件报告。

对于因此事件受到影响的服务与应用客户,谷歌深表歉意,并表示正在采取措施以提高可用性并防止此类中断再次发生。

Facebook

昨天,Facebook 及旗下产品 Instagram 和 WhatsApp 也遭遇了严重的宕机事故,世界各地的 Facebook 用户都反馈称他们登录 Facebook、Instagram 和 WhatsApp 遇到一些问题,并且也无法发帖。

Facebook 发布消息承认了此次服务中断,虽然表示该事故与 DDoS 无关,但具体原因并未交待。

网络安全管理公司 Netscout ***工程师 Roland Dobbins 认为此次宕机可能是一个 BGP 路由错误引起的,他表示:“BGP 路由从一家欧洲 ISP 偶然泄露到一家知名的中转 ISP,这家中转 ISP 随后将路由向上传送到一些对待节点或这家中转 ISP 的下游提供商,结果导致访问一些知名互联网公司的服务出现了短暂的异常。”

然而云监控公司 ThousandEyes 则认为这是由内部错误导致的,“因为 Facebook 返回了‘ 500 内部服务器错误码’”。

今天 Facebook 发推文正面回应了此次事故的原因,其表示正是因为服务器配置的改动而导致了此次宕机,并称目前问题已经解决,系统正在恢复。

△Facebook 回应

值得一提的是,Facebook 此次宕机事故是知名宕机追踪网站 Downdectector 有史以来遇到的最严重的一次,Downdetector 的联合创始人 Tom Sanders 表示:“从持续时间来看,这是迄今为止我们在 Downdetector 于 2012 年推出以来所遭遇的***一次宕机,我们的系统在此次事件中处理了来自最终用户的大约 750 万份问题报告。”

【编辑推荐】

  1. 谷歌开源 GPipe,训练更大模型、不调整超参扩展性能
  2. 谷歌和OpenAI开发新工具,能更好地研究机器视觉算法
  3. 谷歌新政策让微软Android启动器用户面临两难
  4. 谷歌和 Facebook 相继出现全球性大规模宕机
  5. 谷歌已推送 Android Q Beta 1
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

这就是5G

这就是5G

5G那些事儿
共15章 | armmay

115人订阅学习

16招轻松掌握PPT技巧

16招轻松掌握PPT技巧

GET职场加薪技能
共16章 | 晒书包

371人订阅学习

20个局域网建设改造案例

20个局域网建设改造案例

网络搭建技巧
共20章 | 捷哥CCIE

758人订阅学习

读 书 +更多

SQL Server 2005实现与维护(MCTS教程)

本书是微软认证技术专家(MCTS) 70-431考试的专用教材,全书共21章,围绕着考查目标,通过详尽的描述、大量课程和课后测试,全面介绍了SQL S...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微