EN

魏凯:新数据中心时代下的数据生产要素

4月21日上午,由中国通信工业协会数据中心委员会指导,中国IDC圈与世纪互联等共同主办,以“同频共振”为主题的“2021年中国IDC行业Discovery大会”在北京盛大开幕。现场汇集了数百名来自数据中心上下游产业的专家、学者以及从业人士,共同探讨、分享数据中心的发展及未来。大会同期在线上多个渠道开通了现场直播,共有数十万观众观看了本次大会。


会上,中国信通院云大所副所长魏凯向与会者分享了《新数据中心时代下的数据生产要素》。


魏凯_副本.jpg


魏凯:尊敬的吴部长,金理事长,陈升董事长,大家好,这个会的主题非常好,叫同频共振。我今天讲的数据中心内容就讲讲在数据中心上层,要如何共振,我们新基建其实既有底层数据中心的基础设施建设,也有新技术基础设施。在国家发改委的政策里头,实际上把云计算,一体化大数据中心,还有人工智能、区块链都纳入到了新基建范畴,我们要同频共振,就是要探讨上层的应用和数据中心怎么互动。


从去年到今年中央一系列的文件把数据作为生产要素提出来以后,给我们开辟了几乎是无限的增长空间,这在全球是受创的,意义是非凡的,确实是洞悉了整个人类历史发展轨迹。从农耕时代、工业时代,到信息时代,其实主要依赖的增长技术和核心资源,以及基础设施都有巨大的变化,可以说是翻天覆地的变化,未来其实是非常可期的。


我们现在都在惊呼数据太大、太多了,增长太快了,实际上我这里要跟大家分享的图非常有冲击力,我们还在珠穆朗玛峰的山脚下,今年是2021年,全球数据存储量大概是50ZB,根据全球合作咨询公司、智库的预测,到2035年我们全球数据量是2100多ZB,指数增长在右侧越来越快,越来越大,我们很习惯看线性增长。我们正在进入数据洪流的时代,5G核工业互联网给我们开辟了这样一个空间。数据中心产业里的同仁都非常幸福,因为你们有这么大的增长空间。


回顾我们国家对于数据的认识,对于数据战略的布局,我们做了政策性的梳理,大概三个阶段。


第一个阶段是2014年左右,这个也是受了国际上很多知名企业和互联网行业的启发,原来最早数据不认为是一种要素,因为在很多企业看来我们还要存储,按照国家的要求要把数据存3个月,这是一个负担。但是在互联网行业启发下,这些数据可以用来做行为分析,用户精准画像,发现数据是有价值的,之前很多人说数据是“数据废弃”,变成了“数据资源”“数据资产”,我们也有推动大数据发展的行动纲要,这是顶层战略,明确国家要从政务、民生、经济,向数据要生产力,这是第一个起步阶段,但是这个时候其实大家对于这个的怀疑还是非常强烈的,就是数据到底能发挥什么价值。


在2017—2020年是一个新的阶段,这个时候很多是自发的,企业内生的,尤其是金融行业,像运营商都发现其实数据驱动已经是他们不得不做的事情,如果没有数据驱动就像开车没有导航一样,这是自发的行为,这时候国家出台了很多政策。


2020年以后又不一样了,国家把它作为基础要素提升,甚至跟土地要素并列,这是一个新的命题,又给我们开创了一个新的空间,再上了一个新台阶,全社会对这个事情的认知又上了一个新的高度,我觉得未来空间非常大。


这里跟大家分享一下我们搞数据的人,从前重视什么,以后重视什么。


从前,搞大数据的人都在解决企业内部怎么高效存储好自己的数据的问题,怎么更快的处理数据,怎么能够快速得到分析的结果。我们有很多技术,ES、Spark、Hadoop,怎么高速运算这些数据。


现在甚至以后,其实反过来大家又开始讨论随着技术越来越多,管理成本越来越高,并不是技术成本,而是企业内部的山头林立,在座有很多金融界的朋友,数据治理是非常痛苦的事情。今天在组织内部大家非常重视数据的更加智能,数据要良好的治理。因为数据不再是简单的放在数据库里就能产生价值的,而是要高质量的融合起来,真正让它成为闭环里面一个不得不做的要素,所以现在正在讨论的是数据湖,智能化数据治理系统等等这些,这是单一机构内部的,我觉得这个问题还好解决,正在走上一个良性的轨道,从追求快到追求高质量的发展,这是单一机构内部的。


更加棘手的问题是组织之间的,未来的空间在产业数字化,产业数字化实际上是跟产业互联网是同义词,产业互联网不是个二元结构,消费互联网是二元结构。产业互联网,一个汽车两千个零部件,谁也不能吃掉谁,所以我们要尊重企业的存在,产业链的存在。合作的时候其实数据就很难谁给谁,到底是我把数据给你还是你把数据给我,从前我们很少碰到这样的问题,数据跨机构融合。


以前我们在谈数据跨机构的时候,我们更多是要保护,隔离,锁在保险柜里保密。今后为了做产业互联网,跟社会上的上下游要打通,政企打通,企业之间打通,所以关键词变成了开放、融合。所以在大的政策里,可以看到我们不但在提数据要素变成生产要素,更再提数据要素市场化,“十四五”规划里面有一大段专门提怎么把数据变成市场化要素,就是要开放、融合,在保证数据安全的前提下促进数据在不同主体之间连通,合作,所以又有了隐私计算、区块链。


陈升董事长也是这方面的思想家,其实都是在解决数据跨机构之间可信共享的问题,这是我们数据领域的人在考虑的问题,我觉得这些都跟数据中心的底座有非常强的关系,它意味着我们以后的计算模型其实是从数据运行到IO运行,到网络密集型的任务,这是一个变化。


我们再看人工智能,怎么挖掘数据可能不能靠人,得靠机器建模。人工建模非常费劲,甚至我们很难掌握这个领域的知识,所以最近几年对于数据的处理,大量依靠机器。机器在数据里面训练、学习,得到隐藏的模型,这个模型有很多时候人看不懂,但是没关系,能产生实效,比如说语音翻译,准确率达到99%,但是解释不了这个原因,但是这个不妨碍我们机器很多事情做得很好。


人工智能最近几年也进入了一个新的发展阶段,以前大家可能觉得人工智能是靠大量的数据堆起来的,现在除了数据量要拉大,拼算力的时代也开始了。最近我们做了一个分析、统计,在90年代到2010年的阶段,人工智能要训练一个模型,它消耗的算力需求,每两年翻一番,这还是一个比较均衡的,比较线性的增长趋势。到了2015年以后,到现在,人工智能要训练一个模型其实大概平均每3.4个月翻一番,就是算力的需求。去年有一个非常重磅级的人工智能训练模型Open AI的GPT-3文本训练,写的文章根本看不出来是机器写的还是人写的。以前一亿参数就搞定了,去年用的GPT-3模型里用的是1750多亿,数据量从40G到45T,翻了一千倍,神经网络层数从48层到了96层,这预示着人工智能未来的发展回归到了最底层的依赖,还是落到数据中心里面,未来谁能玩得起,只有数据中心玩家能玩得起,未来是拼算力的时代,这是人工智能对数据中心的改变。


人工智能模型是什么模型?是计算密集型的,是CPU密集型的任务,现在有很多既要求CPU密集又要求IO密集,所以我们要有网络来高速互联,对数据中心要求也很高,所以我们提智算中心。云计算是数据中心资源最多的行业,增长非常快,未来我们院的认识,其实云计算未来空间非常大,我们现在上云率还是非常低,大概30%多,云已经从粗放到精细,从IaaS到SaaS的转变,未来预估IaaS比较大,SaaS比较小,未来产值可能是倒三角,SaaS产值会非常大,包括边缘这些发展非常快。


无论是大数据、云计算还是未来数据中心的发展、人工智能的发展,底层都是要靠数据中心提供强大算力。像三峡集团给我们提供电力一样,我们中国现在数据中心产业发展如火如荼,但是什么事情一平均立马就拉下来了。我们按照人均算力来说,我们属于中等,在波兰后面。人均算力460GFLOPS,前面国家都是西方发达国家,我们人均算力差距很远的,表示我们未来发展空间非常大。


在上层应用的驱动下,数据中心进行了新一轮发展,根据我们院的统计,去年我们数据中心机架数是314万架,2020年我们预计会到440万架,翻到8倍,增速30%以上,给这个产业增加了很多钱,包括液冷,无损网络,很多新技术在开始投资,这一波新基建的数据中心建设不是传统的,相对老行业数据中心本身就新,但是这一轮数据中心的建设是数据中心里面本身就新,新模式的发展,包括产业生态的合作。


我们看到基础运营商还有第三方数据中心,还有第三方数据中心和服务商的合作模式也越来越丰富了,产业链协同也是一个新的开始。


我们院今年有个课题,给我们的任务,就是让我们贯通云、大数据、人工智能、数据中心来看算力基础设施的变革、转型,未来算力基础设施将怎么走,跟网络怎么耦合,现在我们都在提云边协同,算网融合,数网协同这些新的概念,我们未来怎么发展,我觉得需要跟业界的同行共同探讨,特别是在碳达峰,碳中和的大背景下,以前是摊大饼的模式,未来我们要走更精细的模式,我们怎么能够构建一个融合这么多数据中心形态的,包括边缘,包括智算中心、数据中心、超算中心,传统机房、云机房这些怎么形成一个非常好的一体化的算力基础设施,真正让算力成为像电力一样的,打开水龙头计算能力就来了这样一个美好的未来,当然它要适应我们现在很多的场景,包括5G、车载、物联网这些场景,空间非常非常大,我也特别希望能够跟各位数据中心的专家能够多学习、多探讨,共同促进这个产业的发展,我就分享这么多,谢谢大家。


返回
全球具有重要影响力的网络空间基础设施服务提供商