12月3日,由百易传媒(DOIT)主办的2019中国数据与存储峰会(DATA & STORAGE SUMMIT)在北京盛大开幕,与众专家对新一代关键存储技术趋势及数据创新应用进行了热议,大家一致认为数据智能将成为数字产业发展的关键推动力,驱动中国和企业数字化转型。
在会上,华中科技大学武汉光电研究中心谢长生教授发表了题为“海量大数据长期存储的挑战与变革性技术”主题演讲。标题为编者所加。
以下内容根据速记整理,未经本审定。
华中科技大学武汉光电研究中心信息存储系统教育部重点实验室谢长生教授
谢长生:大家下午好!我今天演讲的题目叫“海量大数据长期存储的挑战与变革性技术”。
长期存储提出的挑战
说起来,很多人对数据存储的时间考虑的比较短,能有五年就不错了。我今天要讲的是一个长期存储的问题。长期存储提出了什么样的挑战?这里有两个词,一个叫“Big Data”,是热词,还有一个“Long Data”是一个冷词。目前主流存储介质在保存时间方面是短板,硬盘平均寿命是5年,固态盘也只有5年,磁带长一点,大概10年,而人的平均寿命75岁,与人相关的信息至少要保持75年,包括银行存款、保险、住房等个人资料,以及手机拍摄的照片,最好一辈子保存下来;也包括政府、企事业单位、军队的数据都需要长期保存;重要档案还需要永久保存。
除了国家级的单位,需要长期保存的传统电影资料也是很困难的,胶片保存几十年,都已经很失真了。我去过中央电视台资料馆,他们是用的磁带库有八万多磁带,长期保存下去也存在很大的问题,还有国家图书馆,国家投了大量资金。省级的保护工作就差多了,某文化大省古书有五十万册,现在有半数都损坏了,对我们文化遗产是非常大的损失。
一次全国性研讨会的信息与感受
上个月,我参加了“全国数字资源长期保存”相关的全国学术研讨会,那些真正用到长期保存的国家图书馆、中科院档案馆、国家科技文献中心等机构集中在一起,进行讨论。
参加这个会议,我有几点感受。
一是数字资源的长期保存,对我们国家而言是极为重要的。比如说中国科学院有那么多所,所有科研项目都要永久存档保存;二是他们因此成立了国家数字资源长期工作保存体系工作组(NDPP),从法律法规到管理制度到技术体系,全方位都考虑到了,工作做的非常细致,三是正在规划建设国家文献战略储备库,投入巨大,一个建筑群都设计好了;四是技术层面还面临非常大的挑战,采用现有的技术,维持费用是与日俱增的,希望有更好的技术。在发言中,他们提到了我们十年前提出的概念——池光电融合的技术。经过十年努力,我们已经推出了相应的产品来。
对于国家级长期存储甚至是永久存储的需求,我们从事存储的研究机构和企业能不能满足需要?
很多行业信息非常重要,是丢不得的,一丢就会产生很大的损失。所以很多国家出台了强制性的法律。最有名的就是安然事件以后美国出台的塞班斯法案,强制企业要永久保留数据,用于打官司什么的,必须拿出不可篡改原始数据。美国各个行业有长期保存的法案,欧盟也规定了数据保留法案,规定每个行业数据要保存多少年,我们国家也陆续出台了各种各样的法案,去年规定要求电子病例最少要保存三十年,人的寿命75年,最少保存三十年。
互联网企业的冷数据存储负担将越来越不堪承受
除了很重要的信息以外,我们还有很多冷数据也是要长期保存的。
比如大家都在用的微信朋友圈。前一段时间参加了腾讯开发者大会讨论了这个问题,说每天光朋友圈上传的照片就是十亿张,第一天发布的时候很多人点赞,非常热,第二天数据急剧的变冷,第三天就没有人访问了。但朋友圈的照片又不能扔掉,腾讯从微信开始那天到现在的数据都在保留,保留在硬盘当中(三个副本),而且会一直保留下去,一天十亿张照片,应该说有上百万台硬盘在不停的运转,这就是越来越大的能源负担。虽然有一种技术使它休眠,但控制起来其实也有一定的问题。除了消耗硬盘运转的能源以外,还有冷却,这么多硬盘在一起发热很严重,硬盘一旦没有空调是很容易损坏的,这样这个成本是与日俱增。
互联网之父的担忧
还有一个更深刻的问题,互联网之父Vint Cerf先生2015年在一个大型科技会议上担心今天保留在计算机和互联网上的图片文件都将丢失,人类将进入一个数字黑暗时代,未来的人可能都不知道今天人的历史记录。他现在在谷歌的工作,就是研究如何长期保存互联网上的信息,也开展了范围极为广泛的调查,就是保存信息一百年的需求,结果调查回来的结论是信息的长期保存和在线是一个相当普遍的任务,这也引发了国际上研究的课题How preserve information for 100years?就是如何保存信息一百年。除了谷歌,还有学术界的CMU等也都做这方面的研究工作。
大数据长期存储面临四大挑战
我认为,数据的长期存储有四大挑战。
一是寿命,现在存储介质的寿命与实际的需求有数量级的差别。我们的关注和研究才几年,却要它能使用几十年百年甚至更长的时间,有数量级的差距。
二是成本。信息越来越多,而且信息增长的速度是指数级的增长,都要保存下去,面临巨大的成本。
除了设备成本,还有数据迁移成本。
看看这张图。这个是国际上的一个资料上。数据迁移是目前的长期存储主要手段。75年各种数据迁移成本的比较。如果用硬盘五年就要换一次,把5个PB的数据需要1000个硬盘,五年换1000个,这样下来上百万个硬盘才能保存75年,设备成本很大。再一个,数据迁移的时候,还要花很多人力物力,能耗成本也是非常大的。总之,这个成本是相当大的挑战。
三是更新的挑战,以前用的软盘,技术的更新以及设备的更新,存储产品也在不断升级。
四是协议的更新。
来看看什么叫协议的一致性。
埃及象形文字保存的真好,每一个字都清清楚楚,但是谁也不知道是什么意思,信息其实是丢失了。这个问题怎么解决的?在18世纪法国一个探险队到埃及一个港湾城市罗塞塔(Rosetta)发现一块石碑(在英法两国战争之中辗转到了英国大英博物馆),上面有三个部分,分别是古埃及的象形文字,古希腊文和当时的通俗体文字,刻的是同样的内容,考古学家根据这个碑把协议找出来了,破解了失传千余年的埃及象形文之意义与结构,在博物馆里就知道写的什么意思了。为了表示感谢,埃及赠送了一个方尖碑给法国,安置在法国广场。有个翻译软件叫罗塞塔,就是根据这个故事来的。这就是协议的长期一致性,光物理保存下来还不行,软件这个协议还要一致。
如何应对挑战?
我认为,对策有两个,一是开发更长寿命更廉价的大容量存储设备,二是解决协议的一致性问题。
主流非易失性存储介质的寿命分析
目前主流存储介质,硬盘五年、磁带十年,固态盘靠电荷保存信息,更不可靠,随着密度提高,电荷越来越少,寿命越来越短,我们用很多技术保证它保存五年。
光盘寿命会长一些。CD刚出来的时候我就买了,到现在快40年了,还能放出歌曲来,后来又一个出了染料DVD,寿命短的,三年就会坏。蓝光可以保存50年,现在有一种M—Disc(千年光盘),一种熔融石英玻璃光盘,几乎可以永久保存。
对比认为,光存储是寿命潜力最大的存储介质。
光存储为什么寿命比较长呢?给大家一个启示。我们古老的东西保存都很长,中东古巴比伦谟拉比法典距今3800年,埃及莎草纸死亡之书,都是光存储。传统存储,如石刻、竹简、纸张上书写本质上都是对光的反射差别形成的信息记录,只要是光反射的介质寿命足够长,信息就可以长期保存。
光存储在大数据存储领域的优势
光存储的优势一是长寿命,二是节能,介质与驱动器分离的,不存储的时候可以存放起来,抗电磁干扰、防水,飓风来的时候磁带、硬盘都会损坏,只有光盘还有。日本人把蓝光光盘放在海里泡两个月数据还能读出来。光存储还有一个优势是成本低廉,就在塑料片镀一层模板,对环境要求也不高。
光存储也有劣势,一个是容量小,第一代蓝光光盘只有25G,后来50G,现在最高300G,硬盘固态盘起码高一个数量级;二是速度慢,光驱速度10M/s,比硬盘慢,比固态盘更慢,接近两个数量级的差别。
十年前,光盘当时音视频分发的功能和软件分发的功能即将被取代的前夜,光存储界探讨能否开发新的产品,发挥光存储的优势来克服光存储劣势,国内外工作者工作用了将近十年时间交出了答案——超大容量的光盘库。
国际上有三种光盘或者类型,紫晶、日立、Facebook与互盟。
没有一种各方面都理想的存储介质
谈到用途,应该说是这样,热数据用闪存介质,温数据用磁记录介质。冷数据和归档数据用光介质的时机已经到了,当前用磁盘更多,磁带库也不少,但Facebook已经用光存储存冷数据。
在自主创新方面,我们和紫晶一起做出来世界上最大的光盘库,在密度、带宽、响应时间方面,关键指标上都是优于国际同类产品,形成了自主核心技术,已经开始应用于实际了。
光存储未来有三种变革性的技术
光存储技术,在蓝光光盘容量到了1TB以后就到了极限,几乎就没有突破的可能了。如果再往后就靠波层,这个路走不很远了。
蓝光之后下一代变革性光存储技术。
第一种是同轴多维全息光存储技术,刚刚列入国家重点研发计划,我们和福建师大,中科院光电所和紫晶一起参与了这个项目。第二种是2014年得了诺贝尔奖的突破光的衍射极限项目,澳大利亚科学家就是把这个技术用到光上,把光斑从300纳米理论上可以减少到九个纳米,这是非常大的容量上巨大的提高,至少可达15TB每盘,理想上可实现PB级。第一发明人是大陆过去的甘棕松博士,现在回到国内武汉广电中心,实验室最新的进展是380纳米这么一个点,现在差不多在一个位上100个点上去了,实现了百倍的提高。
最近有个新闻,说是微软公司将今年好莱坞影片“超人”刻在玻璃上可以永久保存。这个技术来源于英国南开普敦大学开发的纳米晶玻璃5维光盘,存储寿命可超过300亿年,1000度高温下不丢失信息。
这个技术被微软看重了,微软投了很大人力物力,成立几十人团队,进展很快,从英国引进的5D纳米晶悠久存储的领先研究者张静宇博士,他回来以后在武汉启动了多维永久存储的研发。
5维是哪5维?是三维加上光强、偏振,而我们实验室除了刚才光强和偏振以外还有姿态,不同的姿态形成七维,一个点可以有很多信息,他在英国把圣经写进去了,国内把习主席的社会主义核心价值观刻进去了。这是我们目前做的工作。
光存储前景与我们的目标
近年来,光学衍射极限的突破和多维技术的进展,使光存储技术具有 吉大的容量提升空间,超过了目前所有的存储技术。加上光存储寿命上的突破,未来光存储技术呈现出光明的前景。
武汉光电研究中心 将光学衍射极限的突破与多为技术结合,再加上已经成功的光盘库技术,将形成巨大容量、超长寿命的全新产品,迎接未来大数据存储的挑战,有望形成新的产业。
国家级的研究中心在光存储的现有技术和未来技术上都形成了很好的技术积累和人才积累,花了8年时间研制成功超大容量光盘库,大力引进掌握世界最先进技术的人才。
武汉光电研究中心的目标就是用这个技术做到300TB,可能目标到不了那么高,但一个盘50 TB,我们已经有12000光盘库,现有技术加未来技术,一个标准位可以存600 PB,而且是永久存储。
关于解决协议一致性的问题,协议丢失以后还是认不出来,或者程序运行不了,现在武汉光电中心有研究的课题,国外也在研究,把那些数据按照规范按照一定的格式存下去,在很久以后还能够恢复这些数据,这也有很多工作,因为时间所限就不讲了。
结语
大数据长期保存,在当前和未来都是十分重要的技术。随着时间的演进,人们将越来越认识到它的重要性。光存储在数字资源长期保存具有独特的优势,目前已经有合适的产品,超大容量光盘库已经商品化、实现了实用,市场可以越来越多采用这种技术。
三种变革性的技术正在取得突破,使未来光存储在长期冷数据存储方面,应该具有绝对的优势。一个物理长效和协议的长效,一个硬的问题一个软的问题都是值得关注的问题。
光存储在长期保存上面可以形成新的产业,而且可以完全自主可控的,谢谢大家。
编后:本次2019中国数据与存储峰会(DATA & STORAGE SUMMIT)为期两天,包含主论坛、CIO高峰对话,以及大数据、闪存系统、分布式存储、第二存储与容灾备份、超融合与云存储、人工智能、数据创新与安全可控、容器创新与应用、SCM第五代存储与闪存控制器等十大主题论坛,超过100场的专业知识分享。初步统计,本届峰会吸引了来自政、企、产、学、研、媒体等各方参会者约2000人,在线直播观看观众再创新高,超过10万余人次。