百度微笑航班启程 让人工智能读懂你的情绪

还记得电影《喜剧之王》中,周星驰百变表情的桥段吗?星爷当时的表情变化,只能用叹为观止来形容。

同样关于表情的作品,还有蒂姆·罗斯主演的美剧《Lie to me》。剧中,行为学专家保罗·艾克曼只需要通过你微小的表情与动作,就能看穿你是否正在撒谎。

在所有已知生物中,人类是唯一能够通过表情来传达情绪的物种。当然,可能有时候你会觉得你家的猫主子、狗大爷也会笑,但实际上并不,它们只是面部肌肉在运动而已。

对于非人类的生物来说,识别表情一直是一件很难的事情。不仅是狗,就连前几天横扫中韩棋坛的人工智能、阿尔法狗的小弟弟Master也做不到。

这就引引申出一个问题:为什么小电脑能够干掉所有人类棋手,但却不能看懂坐在对面的人类旗手的失落和沮丧呢?人类可是在几千甚至上万年前就拥有这种技能点了。

“爱笑的女孩子运气不会太差。——by古龙”

科学家Donald Knuth曾说过,“人工智能已经在几乎所有需要思考的领域超过了人类,但是在那些人类和其它动物不需要思考就能完成的事情上,还差得很远。”

PS:Donald Knuth也是个计算机 圈里的传奇人物,其著作《计算机程序设计的艺术》的地位,大概就相当于计算机领域的《相对论》。

将Donald Knuth的话换个说法(此处引用Wait But Why文章The AI Revolution: The Road to Superintelligence):

造一个能算出十位数乘法的计算机——太简单了

造一个能分辨出一个动物是猫还是狗的计算机——非常困难

造一个能战胜世界象棋冠军的电脑——早就成功了

造一个能够读懂六岁小朋友的图片书中的文字,并且了解那些词汇意思的电脑——谷歌花了几十亿美元在做,还没做出来。

一些我们觉得困难的事情——微积分、金融市场策略、翻译等,对于电脑来说都太简单了

我们觉得容易的事情——视觉、动态、移动、直觉——对电脑来说太TM的难了。

这倒不是人类作弊,人类进化出这种“直觉”的时间大概有几千万年;而发明围棋不过是4000年前的事。

这很好,在“不需要用脑”的前提下,人类还是大幅领先于机器的。

不过坏消息是,在一些直觉层面上,机器与人的距离可能正在不断拉近。例如表情识别。

周六(1月14日)国航与百度合作了一个活动,搞出了两架名为“微笑中国号”的航班,打着“带着微笑回家过年”的旗号,让乘客体验了一下表情识别技术

活动说来简单:国航CA1415、CA1416航班上,空乘姐姐们为乘客发放百度特制的搭载微笑互动装置的iPad,乘客可以通过笑容来开启、操作iPad上的应用。

经肉身测试,微笑互动装置确实能够捕捉到人脸上的笑容,但这是在光线稳定的前提下。

此处有一个小插曲:

漂亮的空乘姐姐将iPad拿给靠窗的我后,最初并不能通过笑脸来开启应用进入游戏。在对着镜头傻笑了五分钟后(此处请脑补喜剧之王中星爷的表情包),微笑进度条依然停在原点。

空乘姐姐的笑和我的笑

空乘姐姐拿走iPad并用自己的笑脸测试了一下,微笑进度条开始前进……

……

……

兄弟!这就很尴尬了。我丑我承认,但特么机器也搞歧视吗?

图为程序界面

二次接过iPad后我反思了一下,看着自拍区域的脸上,有着明显的光线痕迹,于是拉下了遮阳板/对准大脸/微笑——进度条开始挪动。此处需说明,只是浅笑,嘴角弧度并没有上扬到夸张,板牙也踏踏实实的藏在嘴唇后面。

事后和百度人员沟通,百度方表示,由于飞机上不能联网,启动前期也可能存在不能识别表情的状况。(不过我还是倾向于是被光线干扰的原因,稍后解释)

抛开小瑕疵不说,这次航班至少说明,精准的表情识别技术已不再遥不可及。

为什么要强调精准呢。因为所谓的笑脸识别在几年前就被运用在相机中了。但受限条件很多,比如嘴角弧度小,或没有露出牙齿,相机就很难完成拍摄。这是因为笑脸识别,基于系统中存储的微笑和不笑时的模版对比(具体对比的是额头、眉毛、眼睛、嘴巴、下颚等部位),如果二者差距极小(微笑),系统就不能判断出你的笑容。

从这一点来看,百度对表情的捕捉更为细致。

从技术角度来看,实现表情识别更精准的主要原因是百度在人脸上捕捉了更多的关键点,并能够有效将其关联成表情网。资料显示,百度的人脸识别技术对人脸型、眉毛、眼睛、鼻子等部位的72个关键点进行了检测和跟踪。

72个关键点的分布

这只是开始,之后面部识别系统会将这72个关键点连接成表情网(如图)。每次关键点的联动,都会反映在表情网上,之后再通过对比数据库,判断并输出此时呈现的面部表情是否为笑容。

其中最大的难点,在于如何准确的捕捉到这72个关键点。而百度的解决方法是:

  1. 1.先识别并找到整个人脸
2.通过轮廓定位态校正,使原本角度各异的人脸图像,能够以标准(正)的形态呈现在系统中
3.全局粗定位,找到五官具体位置并将其作为定位的“灯塔”向周围扩散(作用类似于键盘上用于盲打识别的J和K)
4.局部精细定位,基于粗定位寻找到轮廓内的细微关键点。

百度在FDDB(序号并非排名)

说起来容易,但实现难度不小。据全球最权威的人脸检测评测平台FDDB,百度人脸检测的准确率在排名中一直属于第一梯队,还曾获得过世界第一(哦小米也曾获得过该平台人脸识别组的第一,但相对于隔壁百度的人脸检测组,人脸识别组的难度更低一些)。这大概是对该技术最权威的认可了吧。

但从失败案例中能够看出,百度表情识别的光线问题【可能】依然没有完全克服。

众所周知,人脸是3D的,但人脸图像却只是一个二维的投影。因此当光照程度不同时,会造成二维投影中人脸图像的灰度分布不均匀,使局部对比的差别度扩大,从而影响到算法中对关键点的捕捉。

高空光线rio强

该症结几乎是所有面部识别技术的通病,美国军方数据库(FERET)和人脸识别供应商评测(FRVT)测试也表明光,照变化是实用人脸识别系统的最大瓶颈之一。同时,实验和理论表明:同一个人在不同光照下得到的不同图像间的差异,可能比不同的人在同一光照下的差异还要大(来自W. Zhao和R. Chellappa的文献)。

所以,姑且算作技术上的小瑕疵吧。人类用了几千万年才演化出这些功能,要给小机器人一些时间。

其实不只是玩笑脸识别的百度,包括卡耐基梅隆大学机器人研究所、Louis-Philipe Morency等在内的研究机构,都在15、16年期间推出了自己的表情识别系统,并实现了落地。也因此,很多科技媒体都将16年视作“表情识别”的分水岭。

虽然,目前表情识别的应用场景还不够广泛,但这是AI向感知人类情绪迈进的重要一步。毕竟语言、文字之外,人类还有表情、语气、动作等诸多表达情绪的手段,只有感知到这些,人工智能才有机会真正的理解人类。

所以不要看不起你手机中那个不知道由谁开发的、不起眼的笑脸识别程序,那是人工智能的一大步。

(0)
上一篇 2017年1月15日 22:18
下一篇 2017年1月16日 03:56