1. 首页
  2. 移动互联网

怀进鹏:对云计算大数据的认识与思考

  第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本届大会以会”以“云计算大数据 推动智慧中国”为主题。在5月21日的主会场上,中国科学院院士怀进鹏发表了题为“对云计算大数据的认识与思考”的演讲。

  以下为演讲实录:

  怀进鹏:各位专家、各位领导、各位来宾大家上午好,非常高兴有机会跟各位汇报和交流一些认识,关于云计算大数据的认识,这个领域现在非常热,前面吴部长做了高瞻远瞩的发言,云计算和大数据一个重要的内容,我们从量变到质变比较容易,量变过程容易认识,从量变到质变的一个瞬间难以把握的,如何在信息技术发展的今天我们能够有新的机会,或者是再找到新技术,从分布到走到集中,集中又走到分布这样一些新机会。特别是互联网信息技术和产业发展当中我们能不能有更重要的机会,所以我跟各位交流一下认识,有些非常有局限的,面对当前互联网的发展计算模式的机会是什么,云计算和大数据主要的问题,最后是一些科学问题与建议。

  其实云计算和大数据发展,大家一直讲一件事情:是不是会出现互联网的第二次价值?这个价值可能对我们来说窗口期不是很长,一旦大规模产业化应用的时候,我们从中发现问题的机会,和我们前面创造技术带来的机会有所不同。大家知道谷歌的情况,现在数据有所变化,网民每次点击谷歌收两美元,实际上它的后台对它支持非常大,互联上百万台服务器存储上百PB的服务器,而且功耗也很大,主要方式实际上是互联网进入了一个新的运营商的概念,不是基础设施,而是服务运营商的概念。

  像我们这次会议主题一样智慧中国,以后作为城市智慧,中国智慧应该在哪里?从一个角度来说我们会有交通、医疗、社区等等,那么这些方式保证了标准规范,有了安全支撑以后,更多的通过服务商和系统的管理运维来提供对于社会和企业更多的友好应用。所以这种模式的发展可能真的会对于我们很多的状态发生变化,就像互联网改变了我们过去几类的传统产业。比如说我们数字传媒业,比如说我们现在电子商务,比如说我们现在教育、医疗方面,在整个现代服务业方面可能都会面临新的影响和冲击,特别像金融系统也会有很多新的变化,所以互联网和信息化是非常重要的孪生兄弟,互联网快速发展使得我们更多的利用好资源。

  既然如此就出现两个新问题:一、怎么用好这个资源,怎么管好这个资源。我们在技术上面大家都知道有了很多探索,包括以前面向科学计算、网格计算,互联网应用当中P2P等等有很多方式,实际上一个基本问题就是为了管好资源,而管好资源的基础是能够对这些资源真的是形成它的创造能力和服务能力以及高可靠能力,所以管好资源很重要。什么是云计算?云计算是尽力可为的计算,并不保证质量,从计算通信平台向计算平台和智能平台转换中出现的一类平台,实现我们廉价尽力而为的应用服务体系。

  大数据这两年非常热门,已经成为全世界的热词,什么是大数据?任何一件事情我们对它定义无外乎两个两面,一个方面我们通过内涵,另外一个通过外征,对大数据我们对它实在没办法定义,有点类似商业社会的负面清单管理,不是被处理好的数据就叫大数据,尽管如此大数据给技术研究者、产业界带来了很多机会,在当前互联网二次价值信息探索的时候管好数据,管好资源是云计算要做的,同时大量资源如何用好这是非常重要的问题,所以用好应该好也是一个硬币两个方面,代表着云计算的管理和大数据的分析。

  作为第一个方面就是资源的共享和管理,我们现在都知道资源和数据成为重要的基础设施,整个社会当中在信息化的发展里面资源共享和管理是特别重要的。另外一个方面就是资源本身在信息化当中已经是一个重要的耗能产业,这是几年前有过这样的数据分析,ICT是全球耗能的第五大产业。同时大量的资源海量资源进入管理当中,也会对我们实际应用带来特别重要的影响。

  第一张图是facebook在一天的应用当中,有一天对资源爆炸性的增长,从50台一下子变成3000台,这个就要求我们如何管好资源,配置好资源,同时系统的可靠性也非常重要。在应用当中动则几百万,上千万的应用,去年光棍节淘宝交易额达到新的水平,在这样资源需求和供给极大的增长,短时间爆炸的时期,如何建立高可靠的资源管理,就是我们云计算面临的第一个重要挑战。

  二、现在都在说大数据,我们把原有的数据分析,统计科学的结果来谈我们如何大数据的分析。另外一组方式,大数据是我们现在方法还不能有效处理的这类数据。所以在一个角度来说大数据我们没有办法应对,人类智慧还没有找到更有效对所有数据衡量进行分析,国务院是科学大数据的分析,科学数据是研究的基础,商业数据,还有一类社会数据,所以在数据走向丰富的时候,也可能会给我们带来影响,这个也需要研究。

  另外一个大数据出现确实在一些方面给我们带来一些价值,在医疗应用,在数据计算分析当中都有很多好处,同时在社会活动当中,在经济领域都有通过对数据的归类和分析来进行预测发现在一定程度上对我们认识和解决问题有很重要的影响。同时我们意识到大数据分析对一种方法一类数据分析,是对所有分析。这像谷歌前一段时间对流感的预测没有达到它在08年预测的那么准,也说明在认识问题和采集数据分析方式还会有不同方式出现,因为它并不是0和1之间的选择。所以很多产业界的朋友们讲现在是IT到BT的产业转型,我觉得从技术角度来看我们还需要进行研究和处理。

  第二个问题真的是如何用好这些数据,就需要提高数据分析的处理能力。数据分析处理能力最重要就是我们对于软件开发设计,在这个方面在传统的软件当中已经是一个非常大的问题,我们面对互联网大量数据的出现,所以还有一个新问题,就是在大数据时代软件工具还有不适应的问题,是不是出现面向云计算和大数据需要的新一类技术和科学,比如说数据科学与工程来支持对于现在大数据和海量资源管理和调度的问题,可能也是非常有意义的事情,但是值得探索的问题。

  第三关于网络安全和数据安全的问题,如果我们想使得资源能够被用好,最后一个就是能够放心的用,安全问题应该说是无论怎么强调都不过分,对于大数据来说可能隐私和共享的问题成为新的矛盾,因此我觉得面向互联网第二个机会兴起的时候,可能要我们面对处理好三个问题,未来架构问题,包括硬件设备和系统。第二关于资源有效的管理和处理。第三就是我们能够提供可信任的基本环境。

  对于通信认识,我们现在几乎很少用写信的方式来与伙伴、朋友、家人进行联系,通信是非常重要不可或缺的方式,互联网改变我们很多通信的方式,实际上互联网已经正在改变我们经济和社会的生活。前面提到谷歌公司有4.5亿模型预测传染病,阿里巴巴(滚动资讯)预测金融风险,我们流行一句话有了搜索引擎就可以熟悉更多的游览器,有了电子商务我们熟悉客户的消费行为,这些社交媒体使我们熟悉客户的交流方式,如果我们行为方式有所改变,是否对大数据的分析处理能够有助于我们科学研究。所以这几年当中科学研究基于大数据的科学研究,在传统科学计算领域开始进入到网络计算,也提出了理论研究、实验研究、计算研究之外的数据密集型的研究,更有人提出大数据是否成为科学研究。对此也有专题研究,同时美国、欧盟以及中国都启动对大数据研究的科学问题,因为对未来问题的发现也是一个重要的机遇,究竟大数据能否改变或者影响我们一定程度的思维模式,如果是的话,它会从什么角度开始。我举个例子,我们在日常生活和行为方式上,我们通常在做饭会用查一查的方式解决我们是否知道饭菜熟了,这是在科技社会当中基本的经济统计的方法,以量本是均匀的假定进行我们的行为。但是大数据下数据是不断的变化,表达的方式是多样的,所以过去以产量的方式可能结合产量样本的分析,或者基于一个区域一个时间内对于施工下产量样本的共同研究。我们买一双鞋会不会跑遍所有北京商店,而是基本差不多就行,从科学方向走向看着差不多就行情况下,计算就变得非常需要。

  第三我们经常讲科学研究不仅知其然要知其所以然,从因果性看问题的源头,从大数据当中我们考虑如何大概差不多判断知其然也会重要。这在我们实践当中有很多这样的方式,所以因此大数据否是科学的问题还是一个伪命题,至少从实验角度对我们研究这类问题有意义。

  我下面谈到关于问题简单说一下,是否从大数据思维中我们能够发现认识更多的有关大数据的问题,这个问题表现特征作为从事计算机的角度而言,我们第一个关心大数据能不能处理,第一个问题自然变成数据能不能算得了,数据能不能算得了一个基本的常识,无论计算机有多快还有一些问题由于复杂性太高算不了,计算问题是计算机工作者最关心的问题,我们一辈子做的事情,输入通过一个函数这就是软件,能够转换和输出一个结果。所以研究最重要的问题就是和F有关,那么F就是算法也就是我们看问题能不能算,算法问题非常重要,过去已经有10位左右的图灵奖获得者在算法和研究的领域,但是大数据时代是不是计算复杂度特别高,因为它定义数据算不了,因此会不会有新问题,这是我们关注的问题。

  在传统我们学计算函数的时候大家知道,能计算分成两类,能判定分为易解问题,不能算难算有近似的问题,在大数据下可能有很大变化。过去易解的问题在现有环境下不可解的,比如说一个PB的数据,光用现在最快硬盘读取速度1.9天,一个GB的数据需要五年左右完成,百度一天网页超过10个PB,百度用最快硬盘把数据读完就需要19天,一天数据需要19天读完,显然在数据处理当中它已经不是能解决的,这是我们忍受不了当天事需要18天完成,过去认为能算的问题在这里可能算不了,所以对这类问题我们需要有很多新研究考虑的事情。

  第二类事情我们说难解的事情,在计算机找出计算给出尽可能好的结果,在大数据下我们给一个函数近似表示,数据极大,找近似的时候双重近似把问题又复杂化了,所以出现一个新情况我们要把F和算法和输出要做新的匹配。这样一个问题直接涉及到了怎么设计算法,怎么编这个软件,我们知道在小样本结果下算法小就是好识别率高,在大样本下简单算法就好的,10的6次方一个简单算法对系统更重要。

  第二个关于数据表征和度量的问题。要想计算要把它表示出来,大量毫无规律的数据怎么度量怎么给社会提供数据,所以对于大数据处理,或者云计算处理一个基本的问题就是数据表征和度量的问题。这个里面问题又是非常复杂的,涉及到数据极大的量,大概10的10次方以上为数,才能表达所有数据,第二数据度量越来越难,一头猪和一只大象有可能相似的,有可能两个鸡蛋不同,究竟这个意义在何处?如何度量?如何理解?有可能数据分析结果给我们带来我们直观上完全认识不一样的事情,但是它的合理性在哪里?数据表征度量是解决计算之后最重要的问题。

  数据如此之多如同大海捞针一样怎么建立更有效数据的搜索方法,从关键词搜索还有没有新方式?

  第三类我们说解决了计算问题,解决数据表示和理解的问题,剩下来就是数据怎么在实际处理当中有效结合的同时。现在数据处理当中熟悉的是hadoop,但是意识到它是有效的方法,但是有很多局限性,比如说面对计算能力,数据不断的增量发展,不仅要解决一段的数量,还要解决间接增加,不仅解决自己向下的分析方法,还有相融合分析数据,这可能对我们现在软件系统提出新挑战,并且也适时研发很多研究,新的大数据,云计算处理模型是什么样,对现有的存储,体积机构有什么影响?如何有效支持数据分析和发展?在这里就形成也许未来我们存储和计算互动,就像我们拥有大数据的企业和公司一样,它的存储和计算能力一定不是通用商业性,而是有效解决跟它最契合的数据内容。

  接下来关于数据分析,第三个有一个比较有意思就是大数据和Crowd软件,利用众多的软件实践和理解来解决软件群体智能的问题,这个问题很好玩但是刚刚开始,我们解决计算的复杂性一个方面回答图灵计算,另外我们从E图灵计算的来看,业余通过crowd computing可以融合大家智慧一起研究。

  第四个就是可信问题,建立隐私和数据的安全保护。这一类问题在大数据当中,在线模型云计算有很多挑战,这个领域安全问题在在线云计算当中多少年一直排在第一位,其次才是性能和可用性。关于安全风险分析也有常规所提到六类和七类重要研究的点。我们也在这里给各位报告,北航研究团队在数据计算复杂性,数据查询搜索,研究F和X找到X上最近也有好的结果,这一点需要我们继续努力。

  最后我想说几句话怎么看大数据分析价值,这张图是技术经济预测,在这张图当中有这么几个阶段,我分别标出云所在的地点,对应底下划分实际上给出技术到形成生产力的一个全过程。应该说大数据现在真正形成一个产业和完全影响没有到来,而关于虚拟世界或者我们对云计算的发展倒是有相当的机遇。

  另外一个方面我们看到大数据还正在处在起步阶段,过渡商业的炒作对大家关注有好处,但是很容易忽略它后面的问题,因此也应该权衡好技术发展和产业应用的关系。另外大数据的投资像前面所讲在云计算也有很多基础,在教育、医疗、交通、能源利用方面大数据的分析的确在这些领域有了效果而且有很多投资在这里发展,那么未来也给出了对未来形势的预测。大数据很热是因为大家预测2016年产业会应用巨大。我觉得从电子商务轨迹来看技术创新和产业机遇会有一个时间差,不同时间窗口下我们应该抓住它技术或产业发展最重要的部分。关于云计算和大数据我觉得是一场可能会影响我们很长时间重要的内容,也许会对我们行为、思维都会产生重要的影响,特别是对我们未来的交流上,但是我想也更需要产业界、学术界和拥有资源的资源拥有者能够共同合作来推进云计算大数据有效的发展,这个也对中国信息产业的发展和信息化的建设会有特别重要的作用,谢谢各位。

发表评论

登录后才能评论