图灵测验50年
罗伯特·弗兰奇著 李建会 苏平(译)
图灵测验,最初是作为智能的一个简单操作性定义而提出的,现已陪伴我们整整半个世纪了。可以肯定地说,计算机科学中没有其它哪篇文章,甚至一般地说,科学中几乎没有其它哪篇文章,能引出如此多的争论。本文就图灵的经典文章发表至今围绕其进行的评论和论战做一编年史研究。过去50年对于图灵测验理解的不断变化是与科学共同体对于人工智能态度的不断变化相似的:从60年代的过度乐观到现在认识到前面仍存在着巨大的困难。我做出的预言性的结论是:图灵测验仍将很重要,它不仅仅是智能机发展历史中的一块里程碑,而且与未来世代人们的生活真切相关,那时的世界,机器的认知能力将比现在有巨大的进步。
计算机的发明和发展无疑会列为二十世纪影响最深远的成就之一,这些成就将最终和印刷机的成就相匹敌甚至超过。在这个发展的正中心是阿兰·马西逊·图灵做出的三个根本性的贡献。第一个在本质上是理论的:为了解决数学中的一个著名的问题,他发展了通用计算机器的简单数学模型(今天被称为图灵机)。第二个是实践的:他积极参与建造第一台电子的、可编程的数字计算机。最后,他的第三个贡献是哲学的:他提出了一个精致的关于思想的操作性定义,这个定义在许多方面使人工智能(AI)的整个领域行动起来。在这篇文章中,我将只关注这最后一个贡献,即模拟游戏,这是他1950年发表在《精神》上的一篇经典文章中提出的。
模拟游戏
在回顾关于图灵文章的各种评论前,我想简短地描述一下图灵所说的模拟游戏(今天称为图灵测验)的内容。他从描述一个室内游戏开始。他说,设想一个男人和一个女人在两间隔开的房间里,并且只通过一台电传打字机和一个提问者相联系--50年代等价于今天的电子"聊天"的情况。提问者必须正确识别出男人和女人。为了做到这一点,他可以问能被电传打字机传达的任何问题。那个男人试图让提问者相信他是个女的,而那个女人则试图表达她的真实身份。在游戏中某一点那个男人被一台机器所取代,如果提问者仍不能区别机器和女人,机器就可以说通过了测验,并且我们就会说机器有智能。(我们这里看到为什么图灵选择通过电传打字机来通讯--也就是说,图灵感到对于认知来说并非是必要的身体特征的缺少因此将不会对机器不利。)
图灵测验,正如它迅速在文献中和在今天被普遍描述的那样,被说成用任一性别的人代替了那个女人。它也经常被描述为在一个单独的房间内,包含有一个人或一台机器,提问者必须确定他是正在与一个真人还是与一台机器进行通讯。这些变化确实与图灵关于模拟游戏的原始定义有一点不同。在原先的测验中不论是代替男人的计算机,还是作为女人对手的男人,都是"不合个性地游戏的"(就是说,他们都依赖于女人是什么样子的理论)。这个测验的现代描述只是使一个房间里的一台机器与另一房间的一个人相对。一般认为这个变化没有改变图灵的智能的操作性定义的本质,虽然它当然几乎使测验变得更难让机器通过。关于图灵测验经常被误解的重要一点是通不过测验什么也没有证明。许多人无疑会通不过,如果他们被放在计算机的角色上的话,但这当然不能证明他们没有智能!图灵测验的目的只是要提供一个智能的充分条件。
重申一遍,图灵的中心主张是:没有理由否认能够完美地模拟一个人的无限制谈话的机器拥有智能。图灵的文章无疑比人工智能领域中的其他任何文章引起了更多的评论和争论,并且在任何领域,没有哪篇论文能产生这样持久的反应。在图灵文章出现仅仅13年后,安德森已经数出有1000多篇关于机器能否思考的论文发表。半个世纪以来,图灵测验的引述经常出现在人工智能刊物、哲学刊物、技术论文、小说和通俗报纸之上。在任何网络浏览器中键入"图灵测验",你将会得到几千条纪录。可能这个高记录部分原因是我们竭力想建造能模拟人类所为的机械装置。但是,看起来人们特别着迷于把我们的思维能力机械化。把思维机械化的思想至少可回溯到17世纪莱布尼兹的单子,并且在拉美特利、霍布斯、帕斯卡、布尔、巴贝奇及其他人的著作中得以扩展。计算机的进步意味着,第一次有了一个现实的机会可以实际地达到把思想机械化的目标。正是这种持续地对于把思想机械化的着迷使半个世纪以来图灵测验一直处于关于AI的争论的最前沿。
图灵测验的价值和有效性
图灵测验对于实际研究的指导的有效性,特别是对于它的价值,人们的观点很不相同。一些作者坚信,恰恰是智能的操作定义是我们躲避试图定义"思考"和"智能"严格意义的哲学泥潭所需要的。相反,有一些作者相信,图灵测验说得好听一点是过时了,说得不好听一点是人工智能领域发展的一个真实障碍。海依斯(Hayes)和福特(Ford)声称,抛弃把图灵测验作为一个终极目标,是"几乎任何宣称自己对认知或精神活动的任何特定部分感兴趣的理性研究计划的需要"。他们并非没有理由的观点是:研究时间最好花在发展他们称为"认知的一般科学"的事情上,这个"认知的一般科学"会关注认知的更加限制的领域,如比喻、洞察力、归纳和分类能力等。他们接着说,"从实际的观点看,为什么每个人想要建造能通过图灵测验的机器呢?人类认知,甚至高水平人类认知,并不缺乏。这样一台机器能提供什么额外的功能呢?"
从历史的观点看,惠特比(Whitby)描述了对图灵测验的兴趣发展中的四个阶段:
1950-1966:所有涉及AI的灵感源泉;
1966-1973:AI研究的一些更有前途的方向分散了人们的注意力;
1973-1990:到这时主要是哲学家而不是AI工作者关注的源泉;
1990以后:交给历史。
我不是很确信惠特比的"交给历史"指的是什么,但是如果他指的是"遗忘",我个人怀疑会是这种情况。我相信在300年的时间里,人们仍会讨论由图灵在其论文中提出的论证。甚至可以说,图灵测验在未来几个世纪将显得更加重要,那时它可能作为一个新世界的一个道德标准,在那个世界里,机器将像我们一样到处走动,将使用自然语言,并将在今天几乎无法想象的许多方面和人类相互作用。简言之,未来时代面临的一个问题很可能是:"在毁坏或毁灭机器成为不道德之前,在多大程度上他们确实像人一样行动"。图灵测验的真实本质就是我们对机器在多大程度上像人一样行动的判断标准。
图灵测验理解中的变换
容易忘记的是人们曾经对人工智能的快速实现抱有多高的乐观主义。1958年,仅仅在图灵文章发表后8年,那时电脑仍在其婴儿时代,甚至高级编程语言也刚被发明,西蒙和纽厄尔,两个人工智能领域的创建者,写道:"现在世界上有了能思考、能学习和能创造的机器。而且,它们做这些事情的能力将迅速增长,直到不远的将来,它们能处理的问题的范围将会与人类思想已经应用到的范围一样广泛。明斯基,麻省理工学院AI实验室的负责人,1967年写道:"一代以内创造'人工智能'的问题将被彻底解决。"
在这个开始的乐观主义时期,大多数写作关于图灵测验的文章的作者都持和AI创立者相同的观点,即在看得见的未来可以实际建造一台机器,它能够通过图灵测验。因此,争论几乎是唯一集中在图灵关于无躯体依托的智能的操作定义上--也就是说,通过了图灵测验是否构成智能的一个充分条件?随着AI研究者渐渐明白产生人工智能是多么的困难,关于图灵测验的争论的焦点变换了。到1982年,明斯基关于人工智能的见解经历了从15年前一种无限制的乐观主义到一个更加冷静的对状况的估计这样一个根本的变换:"AI问题是科学曾经经历的最困难的问题之一。"对于图灵测验的理解经历了一个相似的变换。至少部分地由于AI所经历的巨大困难,人们开始逐步认识到,要让一台机器通过图灵测验是多么的困难。因此,人们不再讨论已经通过图灵测验的一台机器是否真的有智能,而是讨论任何机器通过这样一个测验是否真的是可能的。
图灵关于模拟游戏的评论
关于模拟游戏的第一组评论是图灵自己提出的。我将简要考虑三个最重要的。第一个是基于哥德尔定理的"数学的反驳"。哥德尔定理证明,有一些真理能被任何足够有力的形式系统表达,我们人类能认出它们是真理,但却不能在那个系统中被证明为真理 (即计算机不能把它们识别为真理,因为为了把它们识别为真理,计算机就必须证明它们)。那么这就给计算机而不是人类提出了一个限制。这个论证十年后在卢卡斯(Lucas)的一片著名论文中被接受,并被详细地发展了。图灵的反应可能是,人类不是完美的形式系统,并且对他们能认识到的真理确实也可能存在一定的限制。
第二个反对是"来自意识的辩论"或"他心问题"。知道任何东西是否在思考的唯一途径是成为那个东西,因此我们不能知道任何别的东西是否真的在思考。图灵的回答是,如果我们对机器采用这种唯我论的观点,我们也必须对其他人采用它,但几乎没人愿意那么做。
最后,图灵提出的最重要的反对,他称之为"拉弗莱斯女士的反驳"。这个反驳的名称来自拉弗莱斯女士关于查尔斯·巴贝奇(Charles Babbage)的"分析机"的评论,图灵把它解释为"机器只会做我们知道的命令它如何做的事"。换句话说,与人类不同,机器是不能进行创造性活动的,因为它们只遵循程序员的指令。他的回答是,本质上,虽然我们可以给基础的东西编程,但是一台电脑,特别是一台能自主学习的电脑,可能很好地做一些它的程序员并没有期望的事情。
对图灵测验的早期评论的简要记述
梅斯(Mays)写了最早回应图灵的一篇文章,对这样的观点提出了疑问:设计用来执行逻辑操作的机器可以实际捕获"我们直觉的、经常是含糊和不精确的思想过程"。重要的是,这篇论文首次涉及一个问题,这个问题三十年后在人工智能共同体中占据舞台的中心:"计算机模拟的捍卫者似乎含蓄地假设智能和思想的整体可以从微小命题的交织中被加和地建立起来。"这个反驳在80年代以修正的形式重新出现,作为对传统人工智能的一个基本的批评。
在斯克里文(Scriven)的第一篇文章中,他得出的结论是,仅仅模拟人类行为对于意识来说是肯定不够的。接着,十年后,明显地受到新AI运动的主张的诱惑,他完全改变了自己的思想,说:"我现在相信有可能建造一台超级电脑,使得否认它有感情是完全无理性的。"
甘德森(Gunderson)清楚的相信,通过图灵测验并不一定是真正的机器智能的证据。甘德森的反驳是:图灵测验是以思维的行为主义解释为基础的,他感到这是必须被摈弃的。他建议,思维是一个很广泛的概念,并且一台通过模拟游戏的机器仅仅表现了一个单一技能(我们可把它叫做"会玩模拟游戏"),而不是思维所确定的全面的能力。进一步,他主张,成功地玩模拟游戏可以很好地通过非思维的途径来实现,不用精确地说这些途径可能是什么。十年以后在AI研究的困难日渐清晰时,斯蒂文森(Stevenson)写了文章批评甘德森的单一技能的反驳意见,坚持认为,玩这个游戏需要"很大范围的其它性质"。
在70年代早期写的文章中,我们看到了对这样的观念的第一次转移:即机器通过图灵测验是可能的。尽管泊梯尔(Purtill)对图灵测验的基本反驳本质上就是拉弗莱斯夫人的反驳(即任何输出都取决于程序员明确输入机器的东西,因此可以用这种方式解释),但是,他在其论文中以特别深奥的方式总结说,因此:"…如果计算机能进行完全的、'可问任何问题'的模拟游戏,它可能确实会让我们考虑也许计算机可以思维。但是,在可预见的将来,任何计算机都能进行这样一场游戏是如此大的不可能,以至于使整个问题成为不切实际的问题。"桑普森(Sampson)回答说,低层次决定论(即程序和它的输入)并不暗示可预见的高层行为。两年后,米勒提出了关于图灵测验的人类中心主义的第一次明确的讨论:"图灵测验促使我们把典型的人类目标和人类文化背景归属于机器,但如果我们在思考这个名词[智能]的用法上是严肃的话,我们的思想应该足够开放,以允许计算机或Martians(火星人)通过已经很好地适应以完成它们自己明确目标的行为手段来展示它们的智能。"
摩尔(Moor)赞成通过测验构成智能的一个充分证据。他把测验看作"机器能思维的假说的很好的归纳证据的潜在来源",而不是智能的纯粹的操作定义。但是,他认为,测验在指导真正的人工智能研究方面几乎没有价值。斯塔尔克(Stalker)回答说,计算机如何通过图灵测验的解释需要诉诸于精神,而不是纯机械的观念。摩尔接着反驳说,这两个解释并不必然是对立的解释。
80年代以来的评论
很多关于图灵测验的论文在80年代初出现,其中一篇是霍弗斯塔特写的。这篇论文涵盖了广泛的问题,包括一个特别令人感兴趣的关于计算机模拟的飓风与真正飓风相同或不相同的方式的讨论(关于这点的更深入讨论)。这个时期,两篇最常引用的论文是布洛克(Block)和赛尔(Searle)写的。与泊蒂尔(Purtill)和米勒开创的探究路线相反,这些作者继续攻击图灵测验的标准路线,论证说即使机器通过了图灵测验,它仍然可能没有智能。在这两个情况中,明确的假设是:原则上机器能够通过测验。
布洛克宣称这个测验只是测验行为,而不是智能的根本机制。他认为,没有心灵的机器能以如下方式通过图灵测验:测验将被确定持续一小时;机器因此将记住这一小时内发生的所有可能的谈话内容。这样,不论提问者把问题引向何处,机器都会准备好一场完美的谈话。但是仅为这一小时的交谈,机器必须存储至少101500个20字的字符串,这比宇宙中的粒子数大得多得多。布洛克在他对这个反驳的响应中,丢下了他讨论真实计算机的所有伪装:"我的论证只要求机器是逻辑上可能的,而不是可行的,或者甚至是法则论上可能的。"不幸的是,布洛克不再谈论图灵测验,因为很明显,图灵谈的是真实计算机。另外,一个真实的提问者可能会偶尔插进加入了新造词的问题,如"你觉得Splugpud这个词听起来很美吗?"一个完美的合法问题,布洛克机器却不可能回答。组合爆炸推翻了布洛克的论证。
塞尔用他现今十分著名的"中文房间"的思想试验替代了图灵测验。与模拟游戏相反,我们被要求设想一间紧闭的房间,其中有一个说英语的人,他一点也不懂中文。一个中国人在一张纸上用中文写一个问题,并把它送进房间。房间里满是具体说明输入输出的符号规则。接着说英语的人把问题里的符号与规则表里的符号相配。这不一定是一张使问题中的符号串和规则表里的符号相配的直接对应表格,而是能够包括任何类型的查阅程序,而不考虑其结构复杂性。说英语的人盲目地被领着穿越规则迷宫到达一串构成问题答案的符号上。他把这个答案抄在一张纸上并把他送出房间。房间外的中国人会看到一个完美的回答,即使这个说英语的人如何地不懂中文,因此中国人将相信房里的人懂中文。对这个论证已经有许多回应,我将不把它们包括在这里。一个简单的反驳是去询问该房间怎样可能容纳包含讽刺的曲解的字的一些问题的答案。例如,假设问题中的最后一个字被以一种很富阴茎象征的方式曲解了(但对于中国人这个字仍清晰可辨)。送进房间的问题是:"这问题的最后一个字可能让一个很害羞的年轻女子尴尬吗?"。现在,为了回答这个问题,所有可能的输入,包括这些输入的所有可能的曲解,都必须被房间里的规则所包含。组合爆炸,又一次,使这个争论失败了。
有机器曾通过了图灵测验吗?
80年代中期,丹尼特(Dennett)强调了机器通过图灵测验的绝对困难。他把它作为智能的一个充分条件接受,但写道:"不能富有想象力地去思考图灵实际提出的测验使许多人低估了它的严格……。"他认为,当我们考虑到要通过图灵测验有多么困难时,也就表明了为什么AI会显得如此之难。
80年代结束的时候,关于图灵测验的一种新类型的讨论出现了,这种类型的讨论不仅反映了传统的符号AI的困难,也反映了由联结主义的思想激起的对于亚符号AI的兴趣的涌动。这些新思想是弗兰奇工作的基础,这些思想试图表明,通过一种基于亚认知问题的技术,"只有通过象我们一样体验世界,获得成人智能的计算机才能通过图灵测验"。进一步,他争论到,任何企图固定图灵测验,"以便它能一般地测验智能,而不只是人类的智能,是注定要失败的,原因在于人类身体的、亚认知的和认知层次本质上是完全交织和相互依赖的。弗兰奇也强调了这样的事实:图灵测验,当严格地实施时,探究到了实验者的关联概念网络的深层,并且这些"网络是一生与世界相互作用的产物,这必然要涉及人的感觉器官,它们在身体中的位置,以及它们对各种刺激的敏感度,等等。" 戴维逊得到了一个相似的结论,他写道,"图灵想要他的测验在人的身体能力和智力能力之间划出一条十分明显的界限。但这样的界线是没有的。"
在过去10年里,哈纳德(Harnad)成了关于图灵测验的多产作家之一。最重要的是,他提出了"总体图灵测验"(TTT)设想,其中由电传机提供的联结测验者与提问者之间关系的屏幕被排除了。这是对身体在实体与环境之间相互作用中的重要性的明确认识。哈纳德论证的中心是精神意义必须"有基础",换句话说,内部符号的意义必须来源于,至少是部分的,与外部环境的相互作用。申农也认识到与环境的相互作用的必要性。但是,郝瑟(Hauser)争辩说,从正常图灵测验到总体图灵测验的转换是没有保证的。在后来的论文中,哈纳德通过定义图灵测验的层级扩展了他的观念,其中第二级(T2:符号进/符号出图灵测验)对应于标准图灵测验。T3(总体图灵测验)是机器人的图灵测验,在这种情况下,提问者直接的、可见的、巧妙的提问两个测验者--电传机"屏幕"机制被取消了。但即使机器通过了T3,我们仍可能查出一些内部的不同。因此,哈纳德提出了T4:内部微功能不可分辨性。最后是T5:万物大统一理论,在那里,两个测验者在与神经逻辑学家、神经生理学家和神经生物物理学家相关的每个测验中都是功能相当的(例如,都完全符合支配神经刺激的Hodgkin-Huxley等式),但对于一个物理化学家来说却是可分辨的。
哈纳德清楚地认识到,甚至实现T2都是极度困难的,并强调了实现无躯体承载的认知是不可能的。斯奇韦泽(Schweizer)希望通过提出一个真正的总体图灵测验(一个长期时间维被加到测验中)以改进机器人的图灵测验(T3)。他想让我们取得成就的历史纪录(在发明象棋上,在发展语言上,等等)也与机器的历史纪录相配。
一个重要的问题是:图灵1950年指定的层次(也就是哈纳德的T2,符号进/符号出)在多大程度上对于适当地探究测验者更深的亚认知层次,甚至是身体层次是充分的?如果我们足够小心地问措词的问题,甚至人类和机器测验者的低层次物质区别也会被揭示出来。例如这样的问题:"用1到10的分度标出等级:在多大程度上嘴里含一大口可乐的感觉象是脚上扎着针和钉?"就间接的测验物质属性和过去的经验;在这个例子中,就是测验不时沉睡的嘴和四肢的出现,以及嘴里含一口饮料的经验。虽然计算机可能正确猜出一两个这类问题,但它不可能达到与人类轻松做出的回答相同的全部回答。机器可能猜测(或撒谎),但确切地说,它必须令人信服地猜测(或撒谎),且这样的猜测不只一次或两次,而是一而再,再而三的这样。在这个例子中,令人信服地和有条理地猜测意味着,机器对这些问题的回答轮廓将全部与提问者持有的人类回答轮廓非常相似。但对广泛的这类问题,如果机器没有如我们体验世界一样体验过的话,机器怎样能够做到这一点呢?
这些关系到制造能通过图灵测验的实际机器的困难的许多反驳也被克洛克特(Crockett)在他关于图灵测验与AI中著名的框架问题的联系的讨论中所提出(即在实施了一些影响环境的行为以后,确切地决定系统中什么信息必须在一个表征层次上保持不变的问题)。实质上,Crockett宣称通过图灵测验是与解决框架问题基本上是等价的。Crockett基本上得到了和弗兰奇相同的结论:"我想计算机通过测验是不可能的……因为我对测验的困难有特别的印象,这个困难甚至比图灵完全赞赏的还要困难和更加地以人类为中心。"
米奇(Mitchie)把"超发音"的观念引入了辩论中。他宣称,对于一定类型的我们视为纯直觉的现象,事实上存在着能够解释我们行为的规则,即使我们并不有意识地知道这些规则。我们可以在图灵测验中揭开计算机的假面具,因为,如果我们给机器以规则去回答某几种亚认知问题--例如"你如何读出想象的英文词'platch','snorp'和'brell'的复数?"(答案:'platches','snorps'和'brellz')--机器有可能解释它是怎样给出这些答案的,但我们人类不能,或至少我们的解释不是电脑所给出的那个。通过这种方式,我们能够发现计算机的错误,它就通不过图灵测验了。超发音的观念是与现代认知科学研究特别相关的。我们知道某物而不一定能够说出那个知识,或者学习某物(正如由执行特定任务的能力说明的)而不必意识道我们已经学会了它,人类的这种能力是目前认知科学中一个非常活跃的研究方向。
在关于图灵测验的一个最近的重要评论中,沃特(Watt)提出了基于"朴素心理学"的考虑的反向图灵测验(ITT)。"朴素心理学"是指我们人类把精神状态归因于别人和自己的倾向与能力。在ITT中,机器必须证明其归因精神状态的倾向是和真人不可分别的。一个机器将被说成是通过了ITT,如果它不能区别两个人,或者它不能区别一个人和一台能通过正常的图灵测验的机器,但它却能区别一个人和一个被说成是通过带有人类观察者的正常图灵测验区分的机器。对这个提议有许多回答。但是,可以证明ITT能被标准图灵测验模拟。弗兰奇用"人类亚认知剖面"(即一张亚认知问题的列表,其答案是从大量人群中收集的)的技术证明,利用这个剖面的无意识程序能够通过这个图灵测验的变换测验。福特和海依斯重申了他们反对把这类测验作为任何种类对AI来说富有意义的标准的请求。柯林斯(Collins)根据"人类'修补'演讲、文稿、笔迹等缺陷的技巧方法以及计算机难以实现相同的解释能力"这一点,提出了他自己类型的测验--编辑测验。
洛伯纳(Loebner)奖
对图灵测验的回顾若没有简要提到洛伯纳奖将是不完整的。洛伯纳奖设立于1991年。角逐规定,第一个通过一个无限制图灵测验的程序将获得10万美金。对洛伯纳奖来说,人和机器都要回答裁决者提出的问题。但是,竞争是在各种机器中进行的,每一台机器都试图欺骗裁决者以使他们相信他是人。扮演人的角色最好的那台机器将赢得这个竞赛。开始,在可能问的问题的形式和内容上加了限制。例如,问题被限于特定主题,不允许计算机科学家作为裁决者,也不允许问"诡计问题"。
几年来,在"限制的"模仿人类行为上,有许多的努力,最有名的可能是柯尔贝的"PARRY",一个通过很多固定程序来模拟精神分裂的妄想症患者的程序;另一个是维岑鲍姆(Weizenbaum)的ELIZA,它模拟精神医师和病人的讨论。
若不顾这样一个事实:即限制可允许问题的领域违背了图灵原先的"怎么都行"的模拟游戏的精神,至少,在图灵测验中,有两个主要的带有领域限制的问题。首先,要清楚地确定什么被看作或不被看作特定的真实世界领域的一部分,实质上是不可能的。例如,如果领域是国际政治,一个象"当罗纳得·里根碰到米·戈尔巴乔夫时他穿着衬衫吗?"的问题将会被视为一个"诡计问题",由于它相当明显的位于指定领域之外。但现在把问题变为"当英汉达斯·甘地碰到温斯顿·丘吉尔时穿着衬衫吗?"与第一个不同,后面的问题恰好位于国际政治的领域之内,因为为了做出政治的/文化的声明,在会见英国政治家时不穿衬衫的行为是甘地的实践。但是,我们怎样可能先验地区分这两个问题,把一个作为在国际政治领域内接受,把另一个在其之外抛弃呢?进一步,即使在某种程度上可能清楚地划分可允许问题的领域,是什么东西决定一个领域是否太受限制了呢?在对柯尔贝的主张--即PARRY已通过某些有理由被叫做合法图灵测验的测验--的一个挖苦性的反应中,维岑鲍姆宣称,已写了另一个限制领域的程序--婴儿自闭症。而且,他的程序甚至不需要计算机运行;它能够在电子打字机上具体实施。不管键入的问题是什么,打字机只要放在那里哼哼就行了。根据领域限制的图灵测验,该程序是不能和一个真的自闭症婴儿相区别的。这个例子的重要之点是图灵测验中的领域限制问题。
迄今,没有任何程序接近通过不受限定的图灵测验,并且,正如丹尼特--在洛伯纳奖的开始几年同意主持这个项目--所说:"通过图灵测验对于严肃的AI来说不是一个明智的研究和发展目标。"关于图灵测验的严肃学者,包括我自己,没有几个认真看待这个竞争,明斯基甚至公开出资100美金给能说服洛伯纳取消这个竞赛的任何人!(对于那些希望知道洛伯纳竞赛更多情况的人)。关于图灵测验还有许多其他评论。两个关于实际建造真实智能机的特别有趣的评论,可在德涅特和瓦尔兹(Waltz)的文章中找到。
结论
50年来图灵测验成了辩论和论战的目标。从一开始,这个测验就倍受指责,说它太强,太弱,太人类中心化,太宽,太窄,或者太粗糙。但是,有一件事是确定的:我们正逐渐地、不可避免地进入一个世界,在那里,机器将参与那些迄今为止是人类一统天下的所有活动。虽然机器人完美模拟人类是不可能的,但在遥远未来的某一天,它们可能确实有足够的认知能力为我们提出某些道德难题,特别涉及到他们的破坏或爆炸。为解决这些问题,我们将被要求考虑这样的问题:"这些机器有多少真象我们?"并且我预言,用于衡量这个相似的标准看起来将非常像阿兰·图灵在计算机时代的黎明发明的这个测验。
(译自:Trends in Cognitive Science - Vol. 4, No. 3, March 2000)
《世纪中国》(http://www.cc.org.cn/) 上网日期 2002年04月19日
你可以使用这个链接引用该篇文章 http://publishblog.blogchina.com/blog/tb.b?diaryID=2083096