首页 / 行业

人工智能（AI）可以听懂我们所有语言吗

2019-07-03 16:17:00

在韩国首尔举行的围棋赛的中途，世界级顶尖围棋选手李世石和谷歌人工智能阿尔法狗的较量中，人工智能阿尔法狗走出了超越人类令人不安的神秘的一步棋。

在第37步，AlphaGo选择把一块黑色的棋子放在一开始就像一个荒谬的位置。它看起来肯定会放弃一个实质性的领域 - 这是围棋中控制棋盘空间的一个新手错误。两位电视评论员想知道他们是否误读了这一举措，或者机器出了故障。事实上，与传统智慧相反，第37步将使AlphaGo在棋盘中心建立一个强大的基础。谷歌程序高效地赢得了这场比赛，采取了一个没有人会想出的走法。

关于艺术

理解语言对计算机和人工智能系统（AI）如此困难的一个原因是，单词通常具有基于上下文的含义，甚至需要考虑字母和单词的表达方式。在这个图片的故事中，几位艺术家展示了使用各种视觉上的细节来传达超越实际字母的意义。

这个故事是我们2016年9/10月的问题的一部分

阿尔法狗的胜利特别令人印象深刻，因为围棋经常被看作是对直觉式智能的测试。规则很简单。两名球员轮流在棋盘上的水平线和垂直线交叉处放置黑色或白色棋子，试图围绕对手的棋子并将棋子从场上移开。然而，要玩的好是非常困难的。

尽管棋手能够预测之后的几步棋，但是围棋游戏开始之后却会展现出无比的复杂性，而且没有经典的博弈。衡量优势也没有直接的方法，即使是大师也很难解释为什么他下了这一步棋。这使得用一套简单的规则编写专家级围棋计算机程序是不可能的。

没有人告诉阿尔法狗怎么玩围棋。相反，该程序分析了数十万场比赛，并和自己打了数百万场比赛。在一些人工智能技术中，它使用了一种越来越受欢迎的深度学习方法，这种方法涉及的数学计算非常简单，通过神经元的在大脑中的相互连接，它可以学习如何理解新的信息。该程序通过几个小时的练习来教导自己，逐渐磨练出一个直观的战略意识。当时它能够击败世界上最好的围棋选手之一时，代表了人工智能（AI）的真正里程碑。

劳伦斯·韦纳橡胶球扔到海里 1970 / 2014

第37步之后的几个小时，AlphaGo赢得了两场比赛的胜利，在五人制比赛中连胜。之后，李世石站在一群记者和摄影师面前，礼貌地道歉由于人类的失败。“我无话可说，”他说，透过闪光的摄影机。

AlphaGo令人惊讶的成功指出，过去几年人工智能取得了多大的进步，经过几十年的挫折和挫折，即常常被形容为“人工智能冬天”的那段时间。深度学习意味着机器可以越来越多地自学如何执行那些在几年前才被认为需要人类独特的智慧的复杂任务。自驾汽车已经是可预见的了。在不久的将来，基于深度学习的系统将用于诊断疾病和推荐治疗。

然而，尽管取得了令人印象深刻的进步，但其中一个基本能力仍然是难以捉摸的：自然语言像Siri和IBM的Watson这样的系统可以理解简单的口头表达并回答基本的问题，但是他们不能进行对话，也不能真正理解他们使用的单词。如果人工智能要真正具有变革性，这种情况就必须改变。

即使AlphaGo不能说话，它使用的技术可能会促进更好的语言理解。在谷歌，脸书和亚马逊这样的公司以及领先的人工智能实验室中，研究人员试图最终解决这个看似棘手的问题，使用一些类似的使得阿尔法狗成功的人工智能（AI）工具（包括深度学习）。它们是否成功将决定现在正在进行的人工智能的革命的规模和性质。这将有助于确定我们是否会拥有我们可以轻松地与其进行沟通的机器（机器成为我们日常生活中的一部分）或者人工智能（AI）系统是否仍然是神秘的黑匣子，即使它们变得更加自动化。“你不可能拥有一个人性化的没有自然语言理解能力的人工智能（AI）系统，“麻省理工学院认知科学与计算学教授Josh Tenenbaum说，“这是区分人类智慧的最明显的事情之一。”

也许使阿尔法狗攻克围棋的技术最终将使计算机掌握语言，或者也许还需要点别的技术。但是没有语言理解，人工智能的影响将会大为不同。当然，我们仍然可以拥有非常强大和智能的类似阿尔法狗的软件。但是我们与人工智能的关系可能远远不够和谐，远没有那么友好。“从一开始这就是一个令人头痛的问题，”如果你有那些在有些方面是很有效的东西，但是却和我们不同。“斯坦福大学名誉教授Terry Winograd说。“你可以想象运行世界机器不是基于人类的智慧，而是基于这个大数据的东西。

机器低语者

在阿尔法狗胜利几个月后，我前往硅谷，这是人工智能最新潮的核心。我想拜访那些在人工智能的实际应用上取得显着进步的研究人员，他们现在正试图让机器更好地理解语言。

我从Winograd开始，他住在郊区，在帕洛阿尔托斯坦福大学校园南端，离谷歌，脸书和苹果公司总部不远。他卷曲的白头发和浓密的胡须，看起来是一个古老的学者，他有着传染病般的热情。

早在1968年，Winograd就成为教机器交谈的先驱者之一。作为一位数学神童，他着迷于语言，他来到麻省理工学院新的人工智能实验室学习他的博士学位，并决定通过文字提示，用日常语言建立一个与人交谈的程序。当时这看起来似乎是一个很古怪的想法。人工智能正在取得令人难以置信的进展，麻省理工学院的其他人正在构建复杂的计算机视觉系统和未来的机器人手臂。他回忆说：“人工智能有一种未知的，无限的可能性。

四种颜色四个字母 Joseph Kosuth 1966

尽管不是每个人都相信，语言可以很容易掌握。包括有影响力的语言学家和麻省理工学院教授诺姆·乔姆斯基（Noam Chomsky）在内的一些批评家认为，由于对人类的语言机制知之甚少，人工智能研究人员很难使得机器理解语言。Winograd记得参加一个派对的时候，乔姆斯基的一个学生听到他说自己在人工智能实验室工作，就走开了。

但是也有理由保持乐观。德国出生的麻省理工学院教授Joseph Weizenbaum在几年前建立了第一个聊天机器人程序。被称为ELIZA，它被编程为一个卡通心理治疗师，重复声明关键的部分或提出的问题，将促进进一步的交流。例如，如果你告诉程序，你对你的母亲生气，就会说：“当你想到你的母亲时，还想到了什么？”一个简单的伎俩，但它工作的出人意料的好。当一些学科开始向他的机器承认他们最黑暗的秘密时，魏泽鲍姆感到非常震惊。

将深度学习应用于语言存在明显的问题。语言是抽象的，它们与图像存在着本质的差异。

Winograd想要创造一些真正似乎理解语言的东西。他从缩小问题的范围开始。他创造了一个简单的虚拟环境，一个“方块世界”，由一些想象中的物体放在一张虚构的桌子上组成。然后他创建了一个名为SHRDLU的程序，这是能够解析所有名词，动词，和简单的语法规则，这些规则被用来描述这个精简的虚拟世界。SHRDLU（由Linotype机器上的第二列键组成的无意义的单词）可以描述对象，回答它们之间的关系的问题，并根据输入的命令对块世界进行更改。它甚至有一种记忆，所以如果你告诉它移动“红色圆锥体”，然后再提到“圆锥体”，它会认为你的意思是移动红色的，而不是另一种颜色。

SHRDLU被认为是AI的领域正在取得深刻进展的一个标志。但这只是一个错觉。当Winograd试图使程序的方块世界更大时，必要的词汇和语法规则的复杂性将变得难以管理。就在几年之后，他放弃了，并且最终他放弃了人工智能（AI），专注于其他领域的研究。他说：“这个限制比当时看起来要更加接近了“。

Winograd总结说，使用当时可用的工具让机器真正理解语言是不可能的。加州大学伯克利分校哲学系教授Hubert Dreyfus在1972年的一本名为“ What Computers Can not Do”的书中认为，问题在于，人类所做的许多事情都需要一种本能的直觉，而这种直觉不能够被简单的规则所掌控。这正是为什么在李世石和阿尔法狗之间的比赛之前，许多专家怀疑机器会掌握围棋。

纯美 John Baldessari 1966-68

但是，即使德雷福斯提出这样的观点，事实上上，一些研究人员正在开发一种方法，最终会使机器具备这种智能。他们从神经科学中获得了灵感，他们正在试验人工神经网络（数学建模成的神经元层，可以训练它们响应某些输入而激活）。首先，这些系统的速度非常缓慢，并且这种方法在逻辑上被认为是不切实际的。然而，至关重要的是，神经网络可以学习做不能被手工编程的东西，后来这种方法被证明对于一些简单任务是有效的，例如识别手写字符，这是一种在20世纪90年代商业化的技术，用于读取支票上的数字。支持者认为，神经网络最终会让机器做得更多。有一天，他们声称，这项技术甚至会理解语言。

在过去的几年里，神经网络变得越来越复杂和强大。这种方法得益于关键的数学方法的改进，更重要的是，现在出现了更快的计算机硬件和更多的数据。到2009年，多伦多大学的研究人员已经证明，多层深度学习神经网络模型能够准确的识别语音。然后在2012年，同样的一个小组使用深度学习算法赢得了机器视觉比赛，这个算法非常准确。

深度学习神经网络使用简单的技巧识别图像中的对象。第一层模拟的神经元以图像的形式接收输入，并且这些神经元中的一些将响应于各个像素的强度而激活。所得到的信号在到达输出层之前经过更多层相互连接的神经元，这表示该物体已经被看见。一种称为反向传播的数学方法被用来调整网络神经元的灵敏度以使其产生正确的响应。正是这一步让系统有了学习的能力。网络中的不同层将响应边缘，颜色或纹理等特征。这样的系统现在可以拥有与人类相媲美的精度识别物体，动物或面部特征。

将深度学习应用于语言存在明显的问题。语言是抽象的，它们与图像存在着本质的差异。例如，两个单词在意义上可以相似，但是包含完全不同的字母; 同一个词在不同的语境中可能意味着各种各样的事物。

在20世纪80年代，研究人员提出了一个关于如何将语言转化为神经网络可以解决的问题的巧妙思路。他们证明，单词可以表示为数学向量，允许计算相关单词之间的相似性。例如，“船”和“水”在向量空间上很接近，尽管它们看起来很不一样。由Yoshua Bengio领导的蒙特利尔大学的研究人员以及谷歌的另一个团队利用这种洞察力建立了网络，使用一个句子中的每个单词可以用来构建一个更复杂的表示（多伦多大学和的教授兼谷歌深度学习研究人员Geoffrey Hinton称之为“思维向量”）。

通过使用两个这样的网络，可以在两种语言之间以极高的精度进行翻译。通过将这种类型的网络与旨在识别图像中的物体的网络结合起来，可以得出令人惊讶的效果。

生活的目的

坐在繁华的加州山景城的谷歌总部的是该公司的研究人员Quoc Le，正在考虑开发可以进行一个适当的谈话的机器的想法。他的雄心壮志表明了为什么能够语言交流的机器有用。他说：“我想要一种在机器上模拟思想的方法。“如果你想模拟思想，那么你应该需要知道机器究竟在想什么。”

谷歌已经在教计算机语言的基础知识。今年五月，该公司宣布了一个名为Parsey McParseface的系统，可以看语法格式，识别名词，动词和其他文本元素。不难看出，机器的语言理解能力对公司有多大价值。谷歌的搜索算法用于简单地跟踪网页之间的关键字的链接。现在，使用名为RankBrain的系统，它会读取页面上的文字，收集意义并提供更好的结果。Le想进一步发展这种算法。应用用于翻译和图像识别的算法，他和他的同事们构建了Smart Reply，它可以读取Gmail邮件的内容，并提出一些可能的答复建议。

最近，Le建立了一个能够对开放式问题做出回答的程序; 它通过18，900部电影的对话进行训练。它的一些回答看起来很奇怪。例如，乐问：“生活的目的是什么？”该程序回答说：“为了更好的服务。”这是一个很好的答案，“他笑着回忆说，“可能比我的更好。”

只有一个问题，它很快就会显现出来，当你看到更多的系统答案时。当Le问道：“猫有多少条腿？”他的系统回答说：“我认为是四条腿。”然后他试着说：“蜈蚣有多少条腿？”这引起了一个奇怪的回答：“八条”。当然，Le的程序不知道它在说什么。它理解某些符号的组合，但是它不能理解现实世界。它不知道蜈蚣实际上是什么样子，或者它是如何移动的。这仍然只是一种智慧的幻觉，没有人类理所当然的那种常识。深度学习系统通常可以这样做到。谷歌为图像生成所创建的程序会产生奇怪的错误，例如将路牌描述为充满食物的冰箱一样。

Le问：“生活的目的是什么？”该方案回应说：“为了更好的服务”。

奇怪的巧合是，Terry Winograd在帕洛阿尔托的隔壁邻居是一个能帮助计算机更好地理解单词实际意义的人。斯坦福大学人工智能实验室主任李飞飞在我拜访时正在休产假，但她邀请我到她家，自豪地向我介绍了她美丽的三个月大的婴儿凤凰。“看看她怎么看你比我更厉害，”李在凤凰盯着我时说。“那是因为你是新来的; 这是早期的面部识别。“

李在研究机器学习和计算机视觉方面花费了大量的时间。几年前，她领导建立一个包含数百万个对象图像的数据库，每个数据库都标有一个适当的关键字。但李相信，机器需要对世界上发生的事情有更深入的了解，而今年她的团队又发布了另一个图像数据库，注释的内容更为丰富。每幅图像都被人用几十个描述符标记：“一只滑滑板的狗”，“一条蓬松波浪的毛皮”，“有裂纹的道路”等等。希望机器学习系统能学会更多地了解物理世界。“大脑的语言部分可以得到大量的信息，包括从视觉系统，”李说。人工智能的一个重要组成部分就是整合这些系统。“

通过将单词与对象，关系和行为联系起来，这将更接近儿童学习的方式。但是，与人类学习的类比仅仅就走到了这一步。幼儿不需要看滑板狗就能想象或口头描述。事实上，李相信今天的机器学习和人工智能工具不足以带来真正的人工智能。她说：“这不仅仅是因为这是基于大数据的深度学习”。李相信人工智能研究人员需要考虑情绪和社交智能等问题。她说：“我们（人类）在用大量数据进行计算的时候非常糟糕，但我们在抽象和创造力方面非常出色。”

没有人知道如何给机器提供这些人的技能（如果这是可能的，会不会存在那些超出AI范围的品质，例如独特的人性？）

像麻省理工学院的Tenenbaum这样的认知科学家理论上认为，今天的神经网络中不存在思想的重要的组成部分，不管这些网络有多大。人类能够从相对较少的数据中快速学习，并且具有内置的三维世界建模能力。Tenenbaum说：“语言是建立在其他能力之上的，这些能力可能是更基本的，在拥有语言能力之前就存在于婴幼儿身上：通过视觉来感知世界，反馈给我们的运动系统，理解物理世界和其他。

如果他是对的，那么就很难在机器和人工智能系统中不模仿人类，心智模型和心理学而重新建立语言。

自己解释一下

诺亚古德曼在斯坦福大学心理学系的办公室实际上几乎是空的，只有一些抽象绘画支撑在一堵墙和几棵杂草丛生的植物上。当我到达时，古德曼在一台笔记本电脑上打字，赤脚站在桌子上。我们漫步在阳光普照的校园里喝冰咖啡。他解释说：“语言的特殊之处在于它依赖于大量有关语言的知识，但它也依赖于世界的大量常识性知识，而这两种知识以非常微妙的方式结合在一起。

古德曼和他的学生们开发了一种编程语言，称为Webppl，可以用来给计算机一种基于概率的常识，这在对话中变得非常有用。一个实验版本可以理解双关语，另一个可以应付夸张语句。如果它被告知有些人不得不在餐厅“永远”等候一张桌子，就会自动判定这个字面意思是不可能的，很可能只是表示等了很久而变得很生气。这个系统远非真正的智能化，但它显示了新的方法如何帮助使AI程序以更逼真的方式进行交谈。

与此同时，古德曼的例子也表明，教机器语言是多么困难。理解“永远”的语境意义是人工智能系统需要学习的东西，但这是一个相当简单和基本的成果。

他说：“我想要一种在机器上模拟思想的方法。“如果你想模拟思想，那么你需要知道机器究竟在想什么。”

不过，尽管这个问题有困难和复杂性，研究人员使用深度学习技术来识别图像并在围棋这样的游戏中表现的优秀性，至少给了人们语言方面取得突破的希望。如果是这样，这些进展将会很快到来。如果人工智能是一个无处不在的工具，人们用它来增强自己的智慧，让它以无缝协作的方式接管任务，语言将是关键。随着人工智能系统越来越多地使用深度学习和其他技术来自我编程，情况尤其如此。

研究自动驾驶的麻省理工学院教授John Leonard说：“总的来说，深度学习系统令人惊叹。“但另一方面，他们的表现真的很难理解。”

正在研究一系列自主驾驶技术的丰田公司，在人工智能和编程语言专家杰拉尔德·苏斯曼（Gerald Sussman）的领导下，在麻省理工学院（MIT）发起了一个研究项目，开发自动驾驶系统用于自我解释为什么会采取特定的行动。而这样做的一个显而易见的方法就是通过谈话。领导丰田支持的另一个项目的伦纳德说：“建立知道它们在做什么的系统是一个非常难的问题。“但是，理想情况下，他们不仅仅给出答案，而是给出解释。”

从加利福尼亚回来后的几个星期，我看到设计阿尔法狗的谷歌DeepMind研究员David Silver在纽约的一次学术会议上讨论了与李世石的比赛。Silver解释说，当这个节目在第二场比赛中出现杀手时，他的团队和其他人一样惊讶。他们所能看到的只是阿尔法狗预测的获胜几率，即使在第37步之后也几乎没有变化。仅仅几天后，经过仔细分析，谷歌团队发现：通过学习以前的对局，该程序计算了人类选手移动同一步万分之一的概率。其练习局也表明，这提供了一个异常强大的优势。

所以在某种程度上，机器知道李世石会完全被骗过。

Silver表示，谷歌正在考虑将该技术商业化的几个选项，包括某种智能助理和医疗保健工具。之后，我问他与这样的系统背后的人工智能交流的重要性。“这是一个有趣的问题，”他停了一下说。“对于某些应用，这可能很重要。就像在医疗保健方面一样，了解为什么做出决定可能很重要。“

事实上，随着人工智能系统变得越来越复杂，我们很难设想如何在没有语言的情况下与他们进行合作而不能问他们“为什么”。除此之外，与计算机毫不费力地沟通的能力将使它们更有用，使得它不那么神奇。毕竟，语言是我们理解世界和与之互动的最强大的方式。现在该我们的机器抓紧时间拥有这项能力了。

人工智能人工智能语言语言智能系统