推荐人:刘锋 《互联网进化论》作者
推荐语:
《最有人味的人》是一篇很令人意外的文章,对于着名的图灵测试,我们一般只会关注被测试的机器是否能通过实验,但往往会忽视实验中的另一个重要角色――人类。本文作者详细描述了作为“人类卧底”的经历。他尽责地完成着任务,力图让评审官发现他就是人类,这位可爱的作者维护着人类不被打败的尊严。而维护的武器就是“人味”,那些习以为常、最基本的人类能力:高兴、痛苦、激动……
机器智慧能否超越人类一直是争议激烈的问题,包括着名物理学家霍金、特斯拉CEO马斯克、未来学家库兹韦尔都在警告人类,人工智能即将超越人类,人类很可能成为新纪元的奴隶。计算机和人工智能科学家却低调地宣称,人工智能还看不到能对人类造成威胁的迹象。连佛教大师也参与到争论中来,这次他们站在人工智能科学家一边,他们认为机器没有“心”,即第八识――阿赖耶识,无法自我发展。
每年的图灵测试都会成为人类揪心的时刻,害怕哪一天科学家宣布机器终于开始与人类享有相同的智慧。但必须指出图灵测试其实还存在很大的漏洞,如果评审官、人类卧底和智能机器设计者三方进行了私下协调,就有可能出现虚假地判定机器通过测试的情况。
这种情况已经出现,2014年英国雷丁大学在该校组织的“图灵测试2014”活动中,5个参赛电脑程序之一的“尤金?古斯特曼”成功“伪装”成一名13岁男孩,但后来这个程序的开发者被揭发出曾不止一次发布夸大其词的科学成果。
人类担心机器智慧超越人类的动机很复杂,比如有通过恐吓人类获得关注和名望的;有对人类的所作所为失望,把希望寄托在新物种的;也有看到越来越多的工作被机器取代从而悲观的……
也许我们真的忽视了人类的潜力,虽然在计算能力、知识百科解答等重复性智力领域,机器很强甚至超越人类,但在更多领域,如猜测预测、排列组合、规律发现、创新创造、伪装欺骗等更高等级智慧因素上,机器的能力几乎为零,而且看不到突破的前景。更可能的未来是机器与人类分工,低端重复性的智能由机器承担,高端的创造性的智能由人类来承担,机器将永远是人类的帮手,而非敌人和未来的奴隶主。
文章内容
最有人味的人
文 / [美 ] 布莱恩?克里斯汀 译 / 闾佳
图灵测试
过去20年里的每一年,人工智能群体都要举办一场最令人期待也最富争议性的盛大集会:名为“图灵测试”的竞赛。竞赛的名称来自英国数学家阿兰?图灵(Alan Turing),他是计算机科学的创立人之一。1950年,他试图解答该领域历史最为悠久的一个问题:机器能思考吗?也就是说,有没有可能制造出一台精密复杂的能思考、有才智、有思想的计算机呢?
图灵并未从纯粹的理论角度来探讨这个问题,而是设计了一项实验。评审团通过计算机终端,向两名“受试者”提出问题,受试者之一是真正的人,另一个则是计算机程序。评审团看不见谁是谁,只能通过受试者的回答来判断谁是谁。对话内容可以是人类对话涉及的一切。图灵预言,到2000年,计算机能够在5分钟的谈话之后,愚弄30%的人类评委,届时,“说起机器能思考的时候,就无需担心被反驳了。”
图灵的预言迄今尚未实现;不过,在2008年英格兰雷丁举办的竞赛中,最优秀的程序仅以一票之差惜败。读到这条新闻的时候,我立刻意识到2009年在布莱顿举办的图灵测试会是一场决定性的赛事。
我从没参加过这一活动,但此刻,我感觉我必须去――不光是当个旁观者,而是要做人类防线的一部分。我决定去当“人类卧底”了。
比赛期间,评委会逐一跟我们聊上5分钟,接着有10分钟的思考时间而后选出他认为是真人的那一方。评委们还要在一张得分表上打分,记下自己做出判断的信心有多大――这也是决定胜负的一项标准。获得评委们最多票数和最高信心度的程序,即可获得“最有人味计算机”大奖。各研究小组竞相角逐的就是这个大奖,它不光有奖金(通常是3000美元),也是赛事组织者和观众们最关心的东西。有趣的是,能获得评委们最多票数和最高信心度的受试“人”,也能赢得“最有人味的人”大奖。
“做你自己”的重要性
从1991年起,图灵测试就通过一项名为“洛伯纳奖”的赛事进行。赛事的赞助者是个有趣的人物:塑料便携式迪斯科跳舞毯大亨休?洛伯纳(Hugh Loebner)。记者问他赞助和策划年度图灵测试的动机,洛伯纳把“懒惰”视为首要原因:显然,他眼里的未来乌托邦是人类什么也不干,把所有工作和产业都外包给智能机器。
我与“洛伯纳奖”比赛的组织者联系,解释说我是一个以科学和哲学为主题的非虚构作家,对“最有人味的人”大奖很着迷。我的名字很快就上了参赛花名册。对方还简要地向我介绍了比赛的后勤状况,除此之外就没别的了。
他告诉我,“没什么要多加注意的,真的。你是个人,做你自己就好。”
事实上,自打1991年举办首届“洛伯纳奖”时,“做你自己”就是它的口号。可在我听来,它却有点像是对人类直觉的过度自信。事实上,比起拥有巨大数据库的人工智能,脱离了日常直觉,一般的受试者表现得都不怎么样。所以,从一开始,我就存心要彻底违抗组织者“露个面,做你自己”的建议。我花了好几个月做准备,收集尽量多的信息和经验,准备全力发挥出来。
金句
我们曾经以为只有人类使用带语法规则的语言,但这个说法一年比一年说不准;我们曾经以为只有人类使用工具,但随着动物行为研究的深入展开,这个说法也摇摇欲坠;我们曾经以为只有人类能够进行计算,而今,我们倒要好奇,能做计算器做的事情算得上什么。
我们或许会问自己:让我们自己来对人类的独特性下定义,从某种意义而言,是否构成了对技术进步的反动呢?再者,为什么我们要费尽心力地追求“独特性”呢?
阿兰?图灵提出用图灵测试来衡量技术的进步,此外,图灵测试至少还涉及到沟通这种行为。我认为它最深切的问题非常具有现实性:我们该如何有意义地彼此联系,在语言和时间的限制之内尽量地有意义?感同身受是怎样运作的?某人进入我们的生活逐渐对我们有了意义,这个过程是怎么一回事?在我看来,这些才是图灵测试最核心的问题,也是身为人类最核心的问题。
研究在图灵测试中表现最好的程序,发现一个很迷人的地方:它能让人清醒地意识到,怎样在完全不存在亲密感情时进行交谈。阅读历届图灵测试的文字记录,从某种意义上就像是回顾我们腼腆羞涩、回避问题、放松心情改变主题、分心、打发时间的种种方法:不该在图灵测试里视为真正交谈的东西,大概也不该视为真正的人类交谈。
主动响应
如何利用洛伯纳大奖赛独特的“现场打字”媒介,是我要弄清楚的一部分玄机。它所采用的协议和电子邮件、短信和标准即时通信系统有一点最关键的不同之处:它会传送我们打字时每一次的击键。评委和我观看着对方的每一次敲击、输入错误和后退清除。
这种特殊协议还让我们看见了打字的“负空间”――迟疑。如果聊天对话在每回按下回车键之后传送文本,那么异乎寻常的暂停就成了互动的“一部分”。靠着更流畅的即时反馈,沉默具有了意义。
那么,较之标准的你来我往、对讲机式风格,洛伯纳大奖赛少见(且刚执行)的协议带来了什么便利呢?前几年的长篇大论行不通了。那时候,程序可以通过生成一堆长得离谱的回答消耗有限的时间,压垮裁判。采用新的“现场打字”协议之后,如果计算机(或人类卧底)再唠叨个不停,评审可以直接打断对话。
我的另一项卧底策略浮出了水面。我要把图灵测试陌生、不熟悉的文本媒介看成是口头对话,而不是书面英语。如果说,计算机勉强懂得一星半点的口头“和谐”,对节奏则可谓一窍不通。
如果我的屏幕上什么字样都没有,那么,不管是否轮到我,都会抛出一部分答案,可以说是插上一句嘴,再不然,就向评审提问。如果评审思考下一个问题用时太长,我会一直说。我是有料可证的人(和聊天机器人不一样)。如果我提前看明白评审打算写什么,我会赶在他们敲键之前跳将出来。
当然,我也要做出权衡:不光主动争取互动和响应的机会,回答也要足够有内涵。前者重在简洁,后者胜在详细。不过,在我看来,对话的精妙(和困难),大部分来自理解(或误解)问题、给出合适(或不合适)的回答,故此,努力争抢最多的互动次数是有道理的。
2009年的第一轮比赛中,评审沙洛姆?拉宾(Shalom Lappln,伦敦大学国王学院的计算机语言学家)先是和“机灵机器人”对话,之后和我对话。我的口语化策略一览无余:短短5分钟,我击键1089次(每秒3.6次),“机灵机器人”击键356次(每1.2次),拉宾在和我的对话中,共击键548次(每秒1.8次),和“机灵机器人”对话时则为397次(每秒1.3次)。我所说的话不光3倍于机器对手,还调动了评审,让拉宾的速度加快了38%。
回过头去看当时的记录,我在想,能不能找到一种方法,量化人与人互动的灵活性,以及人与机器互动的僵化性呢?要我说,你可以数一数输入最新一条信息的那一方变化更替了多少次――就把它叫成“换位”吧。我击键的次数是“机灵机器人”的3倍,但真正的关键还在于“换位”。拉宾与“机灵机器人”对话时,双方换位33次,而跟我对话时,换位次数高达492次,是前者的近15倍。卧底的心计在图灵测试里,人们彼此之间是陌生的,受限于速度缓慢、不能发声的沟通媒介,又没有太多的时间。洛伯纳大奖赛自举办以来,时间限制一直在调整,但近年来,已经回归了图灵最初构思的5分钟:差不多就在谈话正要开始变得有趣的关口上。
我当卧底要做到的事,在很大程度上就是在这5分钟里尽量全身心地投入。我不像被盘诘的证人那样惜字如金,相反,我像个作家那样?唆多话。我只在再说下去显得明显不礼貌、招人怀疑的时候停止打字。其余的时候,我的手指动个不停。
2009年洛伯纳大奖赛过后6个月,YouTube网站上出现了一段视频,片中一名男子和聊天机器人就莎士比亚的《哈姆雷特》展开了一段极有说服力的对话。有人怀疑它预示着聊天机器人及人工智能的新时代降临。另一些人,包括我自己,则不为所动。看到复杂的行为,并不一定意味着该行为背后存在着意识,它可能只不过是记忆罢了。
我认为,行为的复杂性并非要害所在。计算理论家哈瓦?西格尔曼(Hava Siegelmann)曾形容“智能”就是“对事情的敏感度”,它叫我灵光闪现。这些图灵测试程序可能产生一些有趣的输出,但它们刻板,不灵活。换言之,它们感觉迟钝――一如不会倾听的迷人讲演家。
随着21世纪的计算技术日趋转向移动设备,我们看到,20世纪90年代开始的处理器爆炸式发展减缓了速度,产品开发不再一味强调单纯的计算性能,而更注重产品的整体设计及其灵活性、反应能力与使用便利性。对人类智力有了更健康的认识,或许正与运算领域出现这种精彩转变密切相关,甚至两者互为因果。我们不再光想着人类智力有多复杂、有多强大,而是意识到了它反应上的敏锐和灵活。我们的计算机尽管是一面存在瑕疵的镜子,但仍有助于我们看清自己。
最有人味的人
“根据评委们的评分,获得‘最有人味的人’大奖的是……”杰克逊宣布,“‘卧底1号’,布莱恩?克里斯汀。”
他把“最有人味的人”奖状交到我手里,我不知道那感觉到底该怎么形容。说它毫无意义、微不足道是太奇怪了,但获胜真的对“我是个人”这一点意味着什么吗?我觉得更重要的是,我和我的人类战友们一起以戏剧性的方式为2008年的错误报了仇。那一年,12名评审5次判断计算机程序比人类卧底更有人味。而这5次中有3次,评审都是被一套名为“艾尔伯特”(Elbot)的程序给愚弄的。
从某种意义上而言,势均力敌的对抗会更精彩。我们这一届的人类卧底一票也没让给机器。2008年是人类的生死关头,2009年却是机器的溃不成军。我们认为科学是一场不停不息、永不休止的进步,但在图灵测试这个背景下,人类不允许这样的故事出现。我们可不会设下一个静止不动的标杆。
说到人工智能的前景,我不是未来学家,但我认为,不管怎么说,人工智能的长远未来,既不是天堂,也不是地狱,而是炼狱:在那里,有缺点的好人得到净化、通过考验,爬上对岸的时候变得更好了。
尽管计算机掌握了一度认为是专属于人类的思维领域,它们却未能掌握最基础的人类体验:空间定位、物体识别、自然语言、适应性设定目标。而这正提醒我们,这些每分每秒都在运作的基本人类能力是多么难能可贵,对“计算性能”的要求有多么的高。
我们忘记了自己有多么精彩,计算机提醒了我们。
我以为,只有经历并理解,真正地去用肉身认知,只有见识过专门处理纯抽象问题的东西有多么冷漠、多么脱节、多么了无生气,跟感官现实有多么疏远,才能真正让我们摆脱这种迷恋和偏爱。毫不夸张地说,只有这样,才能把我们带回感官。
2006年,洛伯纳大奖赛的联合创始人罗伯特?爱泼斯坦(Robert Epstein)写了一篇有关图灵测试的文章,他说:“有一件事很肯定:比赛中的人类卧底没法变得更聪明,计算机却可以。”后者我同意,前者却要强烈反对。
事实上,人类是这个星球上最具适应性、最灵活、最能创新、学习速度最快的物种。我们不会躺着白等着挨揍。
我想,计算机通过图灵测试的第一年,肯定是个划时代的历史性时刻,但那并不意味着故事结束了。我想,其实,第二年的图灵测试才真正好看――我们人类从跌倒的地方站起来,重整旗鼓;我们会从那儿开始,学习如何更好地成为友人、艺术家、教师、家长和爱人;我们会从那儿卷土重来,我们会变得前所未有地有人味。
摘自《1024:人与机器共同进化》
电子工业出版社 2014 年 1 月