资讯

云服务需求暴增 阿里云工程师全天候和“两点一线”值班

2月11日,新冠病毒疫情之下,大部分企业开始复工,线上办公陆续开始。这一天是王雷在封闭的阿里云张北数据中心园区工作的第10天,他是阿里云的工程师。再过四天,他会和其他同事轮替——他们所在的岗位需要全天候工作。直播、教育、游戏、视频等多个互联网应用需要云计算服务的支撑,尤其是瞬间涌入的人群将需求进一步推高。与传统购买硬件设备部署IT设施不同,云计算可以支撑企业按需购买,并且可以快速获取网络、计算和存储等能力用于支持自身业务的需求。

由于疫情暴发需要隔离,线下部署难以展开,云计算模式成为更好的选择。天风证券研报显示,疫情促使远程办公、在线教育、在线医疗、远程算力开放等互联网在线应用近期业务量大增,相关公司的用户在线数同比几倍增长。短期看,用户在线访问带来对底层云计算设施需求的大幅增长。尽管整体流量不及“双11”,但是大量用户在家上网也产生了多个高峰使用时段。“一些机柜会出现超电或者超容量的现象,比如机柜的标准是5千瓦,而实际运行可能达到6千瓦,甚至7千瓦”,王雷和他的同事就需要在这种高风险下对有冗余设定的数据中心进行维护,比如关注数值是否仍然可控,以及空调的制冷温度等,最终目的是让对客户的服务运行平稳。

大多数的时候,王雷只需要坐在监控中心关注各种设备的报警,然后根据指南进行相应的维护。由于疫情发生在春节,大部分非本地员工已返乡回家,按照以往的人手布置就显得有些不足。为解决这一问题,阿里云上线了智能运维平台,可以减少运维所需的工作人员,最少三个人就可以组成一个运维小组,张北中心原本40个人的需求减少到了18个人。王雷称,这套系统不仅可以支持现场最小化运维团队正常开展工作,也可以使得在家备岗的工程师和在现场一样时刻了解数据中心设备的运行情况。

对于未来将接替自己的同事,王雷告诉新京报记者,部分同事已经在2月3日返回,开始隔离,以应对接下来的班次交替。整个园区封闭管理后,基本与外部隔离,这虽然有利于预防疫情,但对工程师的能力要求也提升了,“一些故障只能靠我们现场几个兄弟来处理”,一些实在处理不了的问题需要远程和厂商以及阿里云的专家沟通,而集团会承担物资的供应。同一天,与王雷距离2200公里、阿里云河源数据中心的工程师马醒浩则更加忙碌。

整个人员配备延续了春节的保障班底,但整体人数少了许多。为了支持复工第一天客户的正常运营,马醒浩等阿里云在河源的工作人员每天被严格要求在办公场地和宿舍之间两点一线行进,并且需要签名确认——这样来保证自身的安全,避免交叉感染。与张北给进入封闭园区的工作人员开设白名单制度不同,在河源由于存在未能完工的园区,采用的是更为细致的分级制度,将进入园区不同目的地工作人员分为四类,限制出入的区域,白色是安全区、蓝色是混合区、黄色是缓冲区,而红色是隔离区,与疫情接触的程度递减。

对于接下来疫情影响下的复工,马醒浩告诉新京报记者,作为数据中心只需要承接好客户的需求,做好防御管控,由于部署了智能运维平台,目前的人员充足。

本文链接:https://www.aliyun.net.cn/5504.html

上一篇:

下一篇: