在12月10日举办的“跃迁•U10数据智能峰会2019”上,中国信息通信研究院云计算与大数据研究所所长何宝宏指出,数据对国家治理、经济发展、社会生活都产生着重要的影响,任何一种新的技术,如5G、人工智能、大数据、云计算、区块链等技术的有一个关键词是数据。面向数据,产业依然面临着挑战:国内原创性的技术产品不足,数据开放共享水平低,跨部门、跨行业的融通不通畅。他认为,数据开放不是零和一的问题,不是开和不开的问题,而是需要升级一整套开源许可证。
演讲全文如下:
何宝宏:很高兴有这个机会跟大家分享一下我们对今年大数据技术、产业和政策等方面的观察。分为六方面的内容。
第一个从产业方面。大数据的产业规模整体呈现一个比较平稳的增长态势,到最近两年增速有所减缓,主要的原因一个是体量比较大,另外是市场、技术和业务趋于成熟。第二个看到新的现象,我们整个行业出现了整合。这标志着一个行业发展到了新的阶段,一般来说在初期的时候行业刚刚兴起的时候,每个公司都会说我什么都能干,没有社会化分工。经过若干年之后就会形成一个分工,这是很明显的一个发展。尤其是这两个收购,hadoop的时代似乎结束了,已经从批处理的时代走向了流处理,经过几年的发展行业必然会出现整合和分工,标志着行业进入了新阶段。
第二个从政策角度看一下,我们总结国家的政策由规划设计,到了陆续落实的阶段,大概2014年左右政府纷纷出台各方面相关的大数据的政策,到了2019年我们要从数据大国迈向数据强国,包括2017年中央政治局集体学习等等,我们看到了政策越来越落地,31个省市都有自己相关的大数据政策。
第三个观察就是各地纷纷成立了大数据主管机构,主管机构的职责在我看来有两方面,一方面就是推动当地大数据产业的发展,第二方面是推动政府内部数据的治理。这几年从2014年广东省开全国之先,到现在纷纷成立相关的大数据的管理机构。右边是我们的分类,就是大数据管理机构都是从哪儿来的,有的是原来信息中心的,有的是原来地方发改委的,还有经信委、办公厅的,等等形成了不同的各地的大数据管理机构,而且组织形式也不太一样。
第四个从技术的角度来看一下,融合成了今天发展的新态势。可以说经过这么多年的发展,大数据的基础设施,或者说基础性的技术已经趋于成熟,我们在这方面这两年基础性进展不大,更多的是上层应用,跟其他技术相结合,可以说大数据大的问题已经解决了,现在我们更多关注的是如何让它在解决大的时候更快一些。所以大的问题已经解决了,现在重点解决快的问题。其次我们跟其他技术的相融合,比如算力的融合就是异构,我们原有的CPU、GPU各种各样底层的计算技术,和AI的融合、和云的融合,模块化的事情,分析和事务处理相融合,流批融合就是批处理的时代已经成熟稳定了,现在走到流时代,但是不能各有各的,所以也在走向融合。很明显就是核心的东西已经稳定下来,现在需要向周边发展了。
我们看到了大数据的技术产品水平,这些年正在持续的得到提升。大概可以从三个分类的角度来看,第一个是基础类的技术产品,刚才也提到了已经趋于成熟,我们看到这里总结了四个特征。1.供应商日益覆盖更多的行业,针对不同的行业做了很多的开发。2.产品功能日益完善,缺胳膊少腿的现象越来越少,大规模的数量在提升。另外自主研发的系统越来越多。从分析类的数据来看,满足跨行业需求的通用数据分析工具的产品越来越多,不是一个行业搞一个。第二个数据挖掘平台的能力在进一步拓展,比如说机器学习算法、深度学习算法、GPU算法,越来越多的引入了人工智能的想法。3.数据分析,产品的应约性得到进一步的提升,这些年做了很多的分析类的数据产品,可以说能用,但是不好用,不易用,这亿是技术发展到新的阶段典型的特征,第一步是能用就行,第二步是用着不顺手,所以要提升应用性。另外是数据管理类的技术处于市场初期形成的阶段,主要是针对数据资产,就是我们如何做数据的资产管理,不能光靠政策、不能光靠机制、不能光靠所谓的管理,还要靠技术、靠工具,没有先进的技术、没有先进的工具,靠人做数据的治理、数据的清理是难以想象的。目前为止根据的我们统计,大概全国有超过20多款专门做大数据管理类的软件,因为这块目前为止技术实现难度相对比较低,所以很明显这是个创业的乐土,很多小公司都在做。同时因为有大量的数据管理的技术和工具正在逐渐引起一个新的问题,就是数据资产管理的孤岛现象正在形成,每家都不一样,你管不住,旧的孤岛会被打掉,新的孤岛又会被建起来。
数据资产化的问题,十九届四中全会专门讲了两个字“数据”。我个人的体会这里面的数据指的是资产,不是指信息,数据到底代表什么?早年的数据代表信息,今天数据变成了资产,我们管理数据资产和数据信息的方法不一样,所以为什么有区块链,它假设数据了资产。所以你看到这里的数据显然指的是数据资产,不是指数据是信息。所以无论如何我们看到的是一个历史性的新突破。当然了,数据概念的内涵也在不断的扩展。
各行业在积极实践数字资产的管理。我个人观察2019年的大数据有两个转折或者变化。第一个是刚才我已经提到的大的问题基本解决了,现在更多的是研究快的问题如何解决。第二,我们以前更多关注的是围绕数据的技术性问题,技术解决方案,现在我们越来越关注数据资产,由关注数据技术越来越多的关注数据资产,我们也能看到下面这张图,数据资产端报表阶段、治理阶段、平台阶段、运营阶段正在不断的发展和演进之中,如何把数据资产管好用好,还在不断地摸索中,当然电信行业起步比较早,发展比较快,我们有联通大数据,专门搞这方面的工作,确实数据是资产,大数据公司肯定讲数据资产,不能讲数据信息。这块的事情可以很多。
资产化还面临很多挑战,刚才周总专门提到了这个问题。我个人认为有三大难,确权难、估值难、交易难。一个是权利主体与权利分配上还有不确定性,就是所有权、使用权、管理权,三权如何管理的问题我也不知道,法律上还没有界定。第二是估值难,现在的数据资产的估值方法有用,但适用性不行,在有些地方能用,有些地方不能用,因为数据对资产估值标准、质量应用的目的、风险等等这块我们摸索出了一些碎片化的,或者专用场景的估值方法,但是通用性、普遍适用差的比较多。第三是交易难,因为前面两个难会导致交易难,如果没有解决好前两个问题就去做交易,你很可能就踩到红线。这方面一是市场缺乏信任的主体,二是缺乏互动的生态。所以我个人的感觉,我们的经济学界担心的就是这个问题,不要再考虑传统的经济学问题了,赶紧研究数据、法律界如何确权。经济学家应该研究如何估值,然后再做第三步。现在还看不到来自学界有实用价值的研究,或者说有实用价值的研究太少了。
数据到底是资产,数据到底是隐私,有时候模糊不清。数据有可能是资产,有可能是隐私,有可能是垃圾,有可能是有害信息,不能说数据一定是资产。GDPR通用数据保护更多的是隐私方面的保护,引发了全球各国政府纷纷推出的自己数据隐私保护相关的管理规定,这是欧盟的相关数据,实施一年来效果还是有的,美国人说欧洲的GDPR搞一年没什么进展,但是欧洲人不会这么说。包括美国加州也在推出,数据是隐私,数据又要流通,这两个是个矛盾,所以我们需要找到妥协点。2019年以来我们围绕数据保护等方面的立法进展是非常快的,经常一年出不来一个,2019年出了四个。核心是个人信息保护,我们都是以个人信息保护为核心的,纷纷出台了相关的办法,包括数据的采集存储,全生命周期等方面,我们国家是围绕着隐私数据展开的。但是围绕资产数据还缺很多事情,还需要我们共同努力,我们也一直在做。
最后说一下我们问题与挑战。数据对国家治理、经济发展、社会生活都产生着重要的影响,我们真正来到了数据时代,我们任何一种新的技术,5G、人工智能、大数据、云计算、区块链,串起所有这些技术的有一个关键词是数据,要么就是产生数据的物联网,要么就是传递数据的5G,要么就是计算数据的云计算,要么就是挖价值的大数据,要么就是从数据里面学习想产生智能的人工智能,反正不管做的是什么信息技术,你都是在做数据。当然我们面临着一些挑战,第一,国内原创性的技术产品不足,数据开放共享水平低,跨部门、跨行业的融通不通畅。我个人的观点,数据开放不是零和一的问题,不是开和不开的问题,应该设计类似于程序原代码开放的一套开源许可证,上半年我就呼吁过这件事,数据开放跟我们的软件原代码开放不是零和一一样,我们需要升级一整套开源许可证。我们的开放数据的许可证在哪里?我们规定数据怎么用的许可证在哪里?我坚信应该需要这种东西出来。另外跨行业、跨部门的数据流通,很明显,政府这几年让老百姓多跑路,让数据多跑路,这几年取得了非常大的进展,老百姓办事方便很多,数据多跑路也很明显。但是出现了新的问题,跨部门、跨行业流通的时候,一旦我把数据给你,就不仅仅是数据多跑路了,变成了数据跑路了。我们需要安全多方计算,我们需要区块链等,让数据健康有序的跑路。
未来有一些新的机会,技术融合,用区块链解决数据流通时候的确权问题,估值的问题区块链办不到,但是确权流通这个问题还是可以的。所以这块还有很多的事情可以做。
谢谢大家。