2月23日晚间,微信头部服务提供商微盟集团旗下SaaS业务服务突发故障,相关小程序瘫痪,微盟面临客户流失、巨额赔偿风险。
2月28日下午,微盟通告称:微盟所有业务恢复服务数据恢复进展顺利,并表示已经恢复七成左右的数据。数据恢复分为磁盘镜像、磁盘扫描、数据传输、数据提取、数据导入等多个步骤,由于数据量庞大,受制于磁盘读写瓶颈,每一次扫描和传输都会耗费20-30个小时,且一旦中断将会重新扫描,因此预计剩余部分数据恢复的时间还会持续2-4天左右。
3月1日晚上,微盟最新公告称:截止到3月1日晚8点,在腾讯云团队协助下,经过7*24小时的努力,我们数据已经全面找回,由于此次数据量规模非常大,为了保证数据一致性和线上体验,我们将于3月2日凌晨2点进行系统上线演练,将于3月3日上午9点数据恢复正式上线。
此次微盟发生“宕机”的直接原因是核心运维人员恶意删库,该行为不仅在一天之内让微盟市值蒸发了近10亿元,也为依赖微盟运营的300万中小商家带来惨重损失。这次事件也让业内掀起了对互联网公司数据安全问题的讨论,有专家表示,该事件从数据架构安全、员工行为、内外部风险、IT运维数据管控机制和制约环节等方面都暴露出巨大问题,再一次拉响了内部风险的警报。对于每一位企业CIO而言,除了汲取教训,最紧迫的任务,是思考如何避免此类事故的发生。
数据安全警钟长鸣,备份极为重要!
数据作为公司的命脉,确实是万万出不得纰漏。数据丢失对一家公司来说,打击是致命的。所以,技术人员的任何操作,都需要慎而重之,对数据安全时刻保持警钟长鸣,数据备份应极为重视!微盟运维事故发生后,腾讯云的技术团队已经在第一时间与微盟对齐,研究制定修复方案。一般来说,线上数据应该是有多重备份的,就算被删了也可以迅速恢复,为什么微盟三十多个小时还没完全恢复?要不是没备份,或者备份环节有严重问题。
据悉,这次故障被破坏最严重的就是生产系统的数据库,而且是核心库。更为重要的是,此次事件暴露出的最大问题是数据库备份没有做好。可能压根就没有备份,可能有全量备份,但是无增量备份 。数据库的备份是一个长期的过程,而恢复只在发生事故后进行,恢复可以看作是备份的逆过程,恢复的程度的好坏很大程度上依赖于备份的情况。所以,不管哪一种,只要是数据库备份机制不完善,没做过完整的恢复验证,真正要恢复的时候一定会花大量的时间找回数据。
除了备份外,为什么运维人员会有这么大的权限?是否缺乏权限的管理制度和流程?显然,运维人员在进行数据库的登陆和操作时,没有严格的操作等级和审核机制。也有专家指出,对于绝大多数中小型企业来说,由于成本有限,运维人员有限,一个运维人员或DBA(数据管理员)掌管整个系统是普遍现象,并且有可能拥有整个系统所有主机的最大权限,比如root。所以,中小企业的数据安全也面临着员工职业道德的考验。如果真的没法做到最小授权,建议企业可以安装主机安全管控软件,或者堡垒机,各个云厂商都有,当出现类似rm -rf 、fdisk、drop等这样的高危命令时可以实时拦截。
2020年3月1日晚上,微盟公告称数据已经全面找回,并表示此次事故暴露出公司在数据安全方面出现了管理漏洞。事故发生后,微盟内部在系统自查的同时邀请外部数据安全专家一起来评估数据安全保障方案,现公布措施如下:
所以,在企业上云大潮的趋势下,无论是公有云还是私有云都不是绝对安全的,对于特定核心数据的备份是必要的。对于有能力的企业可以自建,一定做好全量备份,增量备份,延迟备份,全量备份要多机房,异地备份,因为数据是核心资产;对于中小企业来说,面临的挑战更多影响也更大,在选择一家靠谱的云服务商和云数据库产品外,也要进行本地备份、多云部署。
数字化转型正变革,全面保障数据安全
在企业数字化转型变革中,确保数据安全是企业的责任也是重任。“数据安全”关乎企业数字化发展和未来的商业模式及竞争力,如何在企业数字化转型过程中保障“数据安全”?云厂商又能做些什么呢?
首先,企业需要有保护数据安全的意识,无论是制度安全、计算安全、存储安全、传输安全,还是产品和服务安全,在各个环节上巩固数据管理、连接、分析等的安全保障,为消费者和企业数据的隐私和安全保驾护航。中国信通院云计算与大数据研究所所长何宝宏曾表示,为避免由于人员的误操作或者相关人员操作不规范造成的宕机事故,相关企业和政府机构应加强技术人员的培训和灾备意识的建立,企业的IT人员日常应做到异机备份、数据容灾、业务双活、定期对灾备和双活进行演练等,尽可能避免云故障带来的损失。
其次,在企业内部搭建一套适合自身发展的数据安全制度体系,是对企业数据的安全保障,同时也是对消费者的一种保护和尊重。何宝宏也指出,企业需根据自身特点选择云灾备和云保险服务,尽量在经济和人员条件可行的情况下使用这些分散风险,如果故障只出现在一个服务器集群,如果采用异地灾备的方案,就可以在最快时间切换到另一个集群下,保持系统可用;云保险则是企业的最后一道保障。
再次,保护数据安全要从根源上提高系统和数据的安全性。从日志记录体系到研发体系,把安全的理念一开始就融入到产品开发设计阶段,确保系统全生命周期的安全;完善数据保护机制,注重对敏感数据的访问权限及加密操作。例如腾讯云数据安全产品系列可以实现对安全事件的全面监控、告警、事后审计等功能。腾讯云堡垒机结合人工智能技术,为企业提供运维人员操作审计,对异常行为进行告警,防止内部数据泄密。
最后,对于云厂商来说,在为客户介绍解决方案、提供上云方案时,一定要将数据安全放在第一位,将保障机制做到位。同时,从全生命周期帮用户去看ROI,告诉客户不要光盯着资源成本,其实日常的人力成本、沟通成本、管理成本,这些隐性成本也非常高。
从微盟的“删库跑路”一事,我们更加意识到数据库安全的重要性。此前,由于市场缺失、生态不完善,人大金仓、武汉达梦、神州通用、南大通用等国产数据库的发展受限,随着近年互联网和开源技术的蓬勃发展,互联网企业和设备厂商都以高度的热情参与到了数据库的建设中来。不管是自主研发,还是借助开源,各企业在解决了自身应用的问题,并且依托云平台,展开了云数据库的应用推广。这其中,阿里巴巴的OceanBase、PolarDB,腾讯的 TDSQL、TBase,华为的GaussDB,金山云的DragonBase,中兴通讯的GoldenDB等都是典型代表。
总而言之,数据安全非小事。数据库的安全除了依靠云服务商或设备厂商提供更高安全、高可靠的数据库服务外,还需要企业设立完整的企业数据库管理规范,严格控制各种角色对应的数据库权限,从制度上预防任何可能的恶意行为。