数据中心 频道

AWS副总裁Peter:解密基础架构底层运维和构建之道

  在刚刚结束的AWS re:Invent大会上,AWS全球基础架构和客户支持资深副总裁Peter DeSantis在主题演讲中分享了AWS过去多年来在基础设施以及运营方面积累的一些经验和见解,虽然在他的主题演讲里面没有像Andy和Swami那样聚焦于新的服务和功能的发布,但是Peter围绕基础架构底层怎么运维、怎么思考、怎么建构,分享了很多鲜为人知的内幕干货。

  对于AWS,很多人都惊异于他们如此稳定、可靠的运营能力,2018年在AWS re:Invent大会公布的一组数据也让大家对于AWS充满了好奇:与规模最接近的另一家服务商相比,AWS云服务的宕机时间是AWS的7倍多。Amazon CTO Werner曾经在公开场合表示,任何东西都会坏,这是我们每天都会面临的挑战。AWS要做的就是从细节入手,如何提前预测什么时候会坏、怎么坏,如果坏了如何将影响降到最低。

  所有数据中心都在谈电的故事,那么电是怎么回事呢?

  Peter做了非常清晰的解读,一般从电网拿到电后,AWS经过Switch Gear配电控制系统供应电力,其中的UPS备用电源系统可以在电网供电出现问题时马上接管电源,保证服务不中断,同时启动发电机组,为电池持续充电,直到电力恢复。

  简单来说,要保持电的持续可用性,就是要保证发电机、配电开关控制系统与UPS系统的“不断电”。

  保证发电机的运营无疑是最简单的,AWS的解决策略就是加一组冗余发电机,可以互做备份。

  配电开关和UPS比较复杂,以配电开关为例,AWS做了一套配电开关系统,在发生事故时,可以最快的速度和极简的流程处理故障。

  我们再看看数据中心本身怎么去思考。把时间拉回2001年,当时Amazon在西雅图就已经在运营一个数据中心。在综合考虑了火灾、雷电、龙卷风、海啸、地震以及延迟带来的影响等等所有的因素之后,Amazon找到了最合适的数据中心位置,,在这个距离的基础上保证数据中心的延迟在一毫秒之内,最大程度保证数据中心之间的独立性。

  除此之外,AWS还提出了区域(Region)和可用区(Availability Zone,AZ)这两个概念。目前AMS有遍及24 个地理区域的77个可用区(AZ),并已公布计划在澳大利亚、印度、印度尼西亚、日本、西班牙和瑞士新建6个AWS区域、18个可用区。

  通过AWS的区域,一方面可以使得AWS云服务在地理位置上更加靠近用户,另一方面使得用户可以选择不同的区域存储他们的数据以满足法规遵循方面的要求。

  AWS的每个区域一般由多个可用区(AZ)组成,而一个可用区一般是由多个数据中心组成。AWS引入可用区设计主要是为了提升用户应用程序的高可用性。因为可用区与可用区之间在设计上是相互独立的,也就是说它们会有独立的供电、独立的网络等,这样假如一个可用区出现问题时也不会影响另外的可用区。

  Peter还特别强调了AWS数据中心的设计逻辑:去除人的干扰。人可以成就一切,也可以破坏一切。因此,要保证每个区域之间的运营完全独立,互不干扰,当客户在全球部署跨多个区域,就可以减小破坏带来的影响。

  接下来,Peter谈到了AWS Nitro架构创新,它为Amazon的云服务提供了底层的支持。Nitro架构的总体设计思想是:轻量化的hypervisor配合定制化的硬件,让用户无法区分出运行在虚拟机内和运行在裸金属上操作系统的性能差异。最新版本version 4为新的C6gn 实例提供了动力。

  而在在机器学习领域,Peter透露今年下半年还会正式推出另一个芯片产品——AWS Trainium。

  最后,Peter提到了让整个Amazon所使用的数据中心100%使用再生能源的计划,AWS把实现这个目标的时间提早了很多5年,争取在 2025 年100 % 利用可再生能源。

  具体来说,2020 年,亚马逊对可再生能源的总投资项目已达到35 个,装机容量超过4 GW,这也是目前世界上单一企业在1年内对可再生能源的最大的一笔投资。这些新项目将使亚马逊所拥有的可再生能源的的总装机容量在2020 年达到6.5 GW,并成为有史以来最大的企业可再生能源采购商。

0
相关文章