为什么有人说数据是新时代的“煤炭”？

undefined

　　9月28日消息，“数据是新的石油吗?”在2012年的时候，《福布斯》杂志在一篇文章中引述了这句一位大数据支持者的提问。时间转瞬飞逝到了2016年，大数据潮流涌去，又掀起了名为“深度学习”(deep
learning)的巨浪，我们从《福布斯》那儿再次听到了更为明确的答案：“数据是新的石油!”

　　对这一观点，目前就职于亚马逊的机器学习和计算生物学教授尼尔?劳伦斯(Neil
Lawrence)在这一比喻的喻体对象上，有着些许不同的看法，他认为：数据是新的煤炭。

　　劳伦斯教授日前在伦敦举办的Re-Work大会的深度学习研讨会上，向我们分享了这个故事：在18世纪的时候，英国工程师托马斯·纽科门(Thomas
Newcomen)发明了最初的蒸汽机(这是瓦特所发明的常压蒸汽机的前身)。纽科门最初的设想是将蒸汽机用于英国西南部锡富矿的开采上。在那时，纽科门所遇到的情况是，要让纽科门蒸汽机实现抽水的功能，就必须让它要靠近煤炭产地，因为这台蒸汽机的效率虽然很高，但它所创造的价值还是不足以支撑买煤炭来让它作业的花费。

　　或许正是基于这样的原因，第一台纽科门蒸汽机是在英国达德利市的煤矿边儿上运转起来的，而不在锡矿。

　　所以，为什么劳伦斯教授会说数据就是煤炭?因为它俩的情况很相似：目前，在全世界的深度学习领域里都有出现了许多“纽科门”。像Magic
Pony和SwiftKey这样位于伦敦的初创公司提出了很多革命性的新方法，这些方法能训练计算机去实现一些能令人目瞪口呆的认知能力，比如从一堆模糊的照片中重新构建出人物的面部数据，通过学习用户的笔迹来更好地预测他接下来要写什么东西。

　　就目前来说，就像纽科门那样，这些公司的创新出的AI技术的需求量非常的大，它们有充足的“燃料”来一展身手。也正是基于目前AI技术火爆的局面，各家AI初创公司都已成了科技巨头们争相抢夺的香饽饽。

　　目前，Magic
Pony已被Twitter收购了，而SwiftKey也已被微软所收购。就连劳伦斯教授自己，也已在三周前，被亚马逊公司以高薪从谢菲尔德大学(University
of Sheffield)挖走了。

　　然而，劳伦斯教授教授的故事其实还没有讲完：69年后，詹姆斯·瓦特(James
Watt)改良了纽科门蒸汽机，在原先的设计中加入了一个冷凝器。而这一小小的改变，按照劳伦斯教授的说法：“让蒸汽机的效率更上了一层楼，并由此引发了工业革命。”

　　无论你认为数据是石油还是煤炭，我们对于它其实还有另外一种理解：许多AI科学家所做出的努力，就是确保我们能事半功倍。

　　单纯地教一台计算机在围棋或是玩游戏上打败人类，其实还不是什么大不了的事情，但如果深度学习技术正从原先的“胡吃海喝”数据，转变至具备能反馈出最佳匹配可能的能力的话，那么深度学习技术在“数据利用率”上，就将获得质的飞跃。

　　“如果你能仔细回想一下那些深度学习技术已大放异彩的领域，那么你很容易就能发现这些领域的共同点，那就是这些领域都能产生出大量的数据，”劳伦斯教授这样说道。

　　深度学习技术能帮你轻松辨认出猫的照片，但如果你想让它帮你诊断什么疑难杂症的话，目前还是比较难能实现的。

　　“从科学伦理学的角度上去看，我们不可能强迫志愿者去生病，来帮助我们搜集改良深度学习算法所需要的数据。”

　　计算机还是很傻的

　　对于像谷歌旗下的AI研究组织Deep
Mind这样的AI成功实践者来说，他们现在所面临的问题是：我们目前的计算机的真正学习水平，仍处于相当痴呆的状态。

　　对于人类，我可以给你看一张你从未见过的动物照片——比如一只短尾矮袋鼠——在这张照片的认知教导下，你足以在一堆照片中正确地辨认出一只完全不同的短尾矮袋鼠。但如果我们首次将一张短尾矮袋鼠的照片，发给一个已被预先训练过的优秀神经网络系统，它能调一调自己的认知模型，都已经算是谢天谢地的了。

　　当然，反过来说，如果你给一个深度学习系统展示数百万张短尾矮袋鼠的照片，然后再输入数百万张其它哺乳动物的照片，你或许就能得到一个无敌的哺乳动物辨认系统，仅凭一点细枝末节的东西，它就能打败所有的顶级人类选手。

　　“一个好的深度学习系统需要海量数据的支持，来帮助它构建自己的分析模型，” 英国伦敦帝国理工学院认知机器人学教授默里·沙纳汉(Murray
Shanahan)这样说道。

　　“这实际上是一个非常非常缓慢的学习过程，但即便是一个非常年幼的人类儿童，他都能迅速地学会新的知识。”

　　专注于深度学习领域的专家们，目前都已经提出了许多能提高“数据利用率”问题的方法，他们中的大多数人都觉得，能模仿人类大脑的运作方式的人工智能系统是最强的。

　　其中一个方法提到了一项名为“progressive neural
networks”(渐进式神经网络)的新技术，它的目标是攻克许多深度学习模型在进入到一个全新领域时，都会遇到的难题：究竟是应该忽略掉它们此前已掌握的信息来重头开始呢?还是应该冒着“遗忘”所学知识的风险，用新信息来改写自己的认知模型。

　　为了更好地帮助读者理解这一点，我们可以一起尝试想象这样的场景：当你要学习辨认短尾矮袋鼠的时候，你是打算独立地从头、身体、四肢、皮毛等等来重新学习它的整个特征呢?还是试图结合你已有的认知，冒着可能会忘记“猫长什么样”的风险来学习它呢?

　　谷歌Deep Mind工程师Raia
Hadsell主要负责将更好的系统嵌入到团队的深度学习模型当中，这对于公司想要搭建一个“通用型人工智能系统”的这一长期目标，是非常至关重要的。通用型人工智能系统指的是能像你我那样做各种各样复杂的事情的AI系统。

　　“它是没有模型的，也没有所谓的神经网络，在通用型人工智能的世界里，它既可以被训练成辨认物品的大师，又能玩电子游戏，还懂得听音乐，”Hadsell在Re-work大会上这样说道。

　　“我们希望它能做到的是学习一个任务，然后在这个工作上达到专家级的水平，然后转而投向第二个任务，紧接着做第三、第四、第五个任务。”

　　“我们希望这个通用型AI系统在学习新东西的时候，不会抛弃已有的认知，并具备从一个任务跳转到另一个任务的能力：如果我掌握了处理一项任务的技能，我希望它能帮助我来学习下一个任务。”而这也正是Hadsell在Deep
Mind带领团队成员正在探索的事儿。

　　他们的方法能让深度学习系统“冻结”对一个任务的理解——比如打乒乓球——然后转到处理下一个任务上，而它在处理第二个任务的时候，能回过头去，再参考它在处理第一个任务时所学习到的那些知识。

　　“这将演变成为一个有趣的初级视觉功能”——举个例子，学会如何从一堆抽象的数据中，分析出这个物体的属性——“或是一个高级的政策理解功能，”比如理解“小白点必须待在船桨正确一边”的这一指令。

　　很显然，现在的Deep Mind离真正开发出一个通用型人工智能系统还有几步之遥，但反过来说，Deep
Mind离“意外”释放出一个超级AI系统就剩几步的距离了。好消息是，据Hadsell本人透露，现在的渐进式神经网络技术已经可以被用于改进“数据利用率”了。

　　我们可以拿机器人举个例子。“数据问题是机器人的一大难题，因为它们很脆弱、它们需要看护者，还很贵。”Hadsell这样说道。

　　一个解决方式是用“蛮力”来搞定：比如，Alphabet的无人驾驶汽车是通过“野蛮”地行驶了很长一段距离，才学会了驾驶。

　　在开始的时候，Alphabet无人汽车就算是在无人的公路上开，驾驶员的手也要时刻准备着要落到方向盘上。但如今的Alphabet无人汽车虽然受法律限制，还无法驶上马路，但它已经可以完全不装方向盘了。

　　而另外一个方法就是通过模拟仿真来教导机器人，通过给机器人装上各种传感器来无限逼近真实的世界，这种方法的学习正确率也很高。这样调教一番后，你就可以用实战训练来提高教育的层次。

　　“要实现这点最好的方法就是采用渐进式神经网络学习技术。”Hadsell这样说道。

　　我们可以举个简单的任务例子：比如用一只机械臂来实现空中接球。

　　“某天，我们就是在仿真中这么简单粗暴地来训练它去学习这个项目…如果我们拿真正的机械臂去训练它的话，大概要耗去我们55天的训练时间。”但这个AI系统在经历仿真训练后，再将它接入到真正的机械臂上，只用再训练上两个小时，就能达到55天真实训练的效果。

　　教AI学会思考

　　除了深度学习，其实还有另外一种方法。

　　英国帝国理工学院的沙纳汉教授(Shanahan)从事AI研究领域多年，在他的印象里，刚开始的时候，AI领域里最流行的手段还不是深度学习。事实上，深度学习这个技术需要高计算机处理性能、大储存空间和海量数据支持才能实现，而在当时这些条件都并不成熟，所以起初最流行的方法是“符号学习”技术。

　　AI符号学习流派专注于构建通用的逻辑范例，然后“喂以”它们真实世界的信息来传授它们更多知识。

　　沙纳汉教授表示，符号流派里的“符号”有点像英语里的句子，它们陈述了世界或某些东西的样貌。

　　然而不幸的是，这一流派的技术并未被推广开来，以致于AI的发展在随后低迷了好几年。

　　但沙纳汉教授仍坚信，将现在的深度学习和传统的符号学习技术结合到一起，将产生1+1>2的效果，这能有助于提高“数据利用率”，还能帮助我们解决机器思维不透明的难题：“当机器在做决策的时候，我们很难从中提取出可被人类阅读的解释，”
沙纳汉教授这样说道。

　　我们无法问计算机为什么它认为短尾矮袋鼠是一只“短尾矮袋鼠”，它只是就这么判断罢了。

　　沙纳汉教授的想法是建立一个通过另一种名为“深度强化学习”(deep reinforcement
learning)的方法，而不是传统手动码代码的方法，来建立一个符号类型数据库。这样的话，AI就可以通过反复试错来而不是检索海量数据来学习了。举个例子，DeepMind所开发出的AlphaGo的核心学习技术就是基于深度强化学习的。

　　为了向我们更好地展示这一概念，沙纳汉教授的团队开发出了一个能玩简单版围棋游戏的AI系统。从大体来讲，这个训练这个AI系统的过程不是让它直接玩围棋游戏，而是通过让它教第二个系统有关围棋规则的知识和玩法，这样的话，这个AI系统就能以更为抽象的方式，理解围棋究竟是怎么玩儿的了。

　　就像Hadsell的那套方法一样，沙纳汉教授的这套方法虽然为麻烦一些，但从效果上来看，对它所有的付出都还是值得的。当传统的深度学习系统遇到瓶颈的时候，沙纳汉教授的这套更为抽象的系统能更为一般化地思考它所面对的难题，它在某些方面同上一种方法的类似，但却是它的延续。

　　更为机智地思考

　　在某种程度上，“数据利用率”的问题其实也被夸大了。比如，相比那些基于深度学习技术的AI系统，你确实在学一些东西的时候要比它快得多。但你也必须承认，作为人类一员的你已经学习各种知识很多年了，这可不是什么小规模的数据量。

　　除此之外，你身上还有一个很明显的缺点，这是任何优秀的深度学习系统都不会出现的情况，那就是：你很健忘。

　　而这或许也是人脑这个思考系统为高效率所付出的代价。你要么就是会忘了怎么做事儿，要么就是每次都会花越来越多的资源，来从大量物品中寻找到你想要找的那个东西。但如果能从那些大公司那儿孵化出最高级别的深受学习技术的话，那即便出现这点小问题，它也还是值得的。