数据胜于理论
事实证明,“自下而上”的研究手段在处理语言识别、机器翻译和计算机视觉中的手写识别等任务时大获全胜。到20世纪中期,机器学习的原理日趋清晰:机器不需要从算法层面去理解学习的过程,更不需要以此去模仿人脑是如何“学习”的,它只需要有大量数据支持训练,就可以完成各种任务,也就是说,数据比理论模型更重要。基于这一原理制造的新一代智能机器逐渐占据统治地位。研究人员也放弃了以往持有的“人工智能可以帮助人类理解人脑智能”的观点,因为试图从算法之中去理解人类智能纯属浪费时间——算法的“智能”主要来自于海量的数据训练,而不是算法本身。
那么,机器到底是如何学习的呢?
在人工智能里,“学习”的定义是,机器根据过去的经验改进自己的行为。这听起来神乎其技,但其实是个非常机械的过程。以电子邮箱中的垃圾邮件过滤功能为例,当我们把一封邮件拖入垃圾文件夹时,垃圾邮件过滤器就会统计这封邮件的发件人和邮件内容中的所有字句,从而计算得出一封邮件由于包含某些信息而被归为垃圾邮件的概率。这使得垃圾邮件过滤器在未来接收到新邮件时,可以通过扫描邮件的发件人和其中字句来判断该邮件是否为垃圾邮件。垃圾邮件过滤器并不需要去理解邮件内容,仅仅去统计字句就足够了。
将这种看似简单的统计方法与海量数据相结合,可以实现许多不可思议的功能。这些功能很难用“自上而下”的研究手段直接设计,比如,生成和补全你即将输入的语句,预测你的鼠标下一次会点击在哪里,给你推荐需要的商品,甚至进行语言翻译、手写识别、人脸识别等等。我们根本不需要人为地给智能系统指出哪些是重要的识别特征,只要给它们足够的数据,它们就可以训练有素。
如果我们把一些简单的统计方法应用到同一个复杂系统中,并且输入大量的数据来训练它,系统最终的输出结果将会非常智能。不过,尽管它表现得如此智能,但它自己并不能解释为什么会有这样的输出结果。这一现象有时被称作“不可解释的大数据有效性”,它给人们上了非常重要的一课:把一些简单的统计方法相结合,并且提供海量的训练数据,计算机系统就可以轻松实现一些曾困扰了“自上而下”的理论派们几十年之久的智能行为。
人工智能与大数据:你中有我,我中有你
得益于唾手可得的大数据,人工智能终于走下神坛,在现实生活中有了用武之地:一个个视觉、语言、翻译、问答系统被开发出来;当这些单一功能的系统整合进一个更大的系统时,它们就构成了苹果公司的Siri语音助手和谷歌公司的自动驾驶汽车。
人工智能的进步离不开对数据的有效利用。于是,现在的人工智能研究人员投入了更多的时间和精力在数据上,比如说如何找到合适的数据,如何利用更多的数据资源。当然,有价值的数据大多是用户行为的副产品,例如人们随手发布的朋友圈或者微博。正因为如此,工程师也在积极开发更多收集数据的方法,比如说在社交平台的图片里标注出自己的好友,给买过的商品打分,参与可以采集地理坐标的游戏,等等。数据,变成了一种新的资源。
另一方面,在人工智能展现出强大功能的同时,我们也开发出了史无前例的数据平台。无论是在网上阅读新闻、搜索信息、购买商品、玩游戏,还是收发电子邮件、查询银行账户,我们都在跟数据平台打交道。数据推动着人工智能一步步走向强大,人工智能也推动了数据平台的开发。
未来,无限可能
人工智能既是一门强大的技术,也是人类生活的变革者。
人工智能带来了多种多样的问题和挑战:它监控人们的行为,暴露人们的隐私,影响我们的决策,取代人类的工作……我们真的准备好了吗?
如果我们因智能系统的差错而被无端拒绝入境,或者在就医时被误诊,我们可以向谁申诉?信用记录可以被算法排序,难道我们的个性和认知也一样吗?如果大量的工作被人工智能取代,这个充斥着失业人群的社会会变得更好吗?
综合性的数据平台不停地收集个人数据,这使得它可能成为监控人类的装置:它知道我们所在的地理位置,我们浏览器中的访问记录,以及我们在社交媒体上的所有分享。然而我们并不能决定谁可以访问这些记录,这些记录可以用来做什么,或者这些记录是否可以被永久删除。也就是说,我们并不具有个人隐私的控制权。
智能系统利用这些数据预测我们的下一步行为,它的本意是更好地服务于人类,但也无形中影响着我们的决策。许多人工智能公司开发的商业模型依赖于用户更多地浏览和点击广告,很明显,当机器获得更多的用户数据时,它就能更好地“忽悠”用户点击广告。更糟糕的结果是,用户看到的只是系统最想展示的,而不是自己最想看到的。
人工智能已经“飞入寻常百姓家”。因为随处可见,所以我们可能没有意识到这就是“人工智能”,也不会直接把它叫作“人工智能”,但这并不妨碍它在健康、交通、通信、教育等不同领域带来深远影响。人工智能的前沿研究并未停歇。未来,机器学习的一个研究方向是改进和优化几十年前提出的各种“自上而下”的模型。这之后又将会带来怎样的惊喜,我们拭目以待。
人工智能为我们的生活带来了无尽的可能性,在这无尽的可能性之中,就包含了人工智能的潜在风险。这个风险并不在于人工智能是否会毁灭人类,而在于它对个人隐私的侵蚀,以及对传统产业、文化和生活方式的冲击。
(本文选自《科学画报》微信号:kxhbcx)