0°

MIT学者独家撰文:ChatGPT的瓶颈与解药

  *本文为麻省理工学院(MIT)学者罗鸿胤独家供稿,「甲子光年」经其授权后编辑发布。罗鸿胤是人工智能领域的青年科学家、MIT 计算机学与人工智能实验室(CSAIL)的博士后研究员,主要关注自然语言处理方向,包括自训练算法、蕴含模型、语言模型推理问题。他博士毕业于 MIT 电子工程与计算机科学系,师从 Jim Glass 博士;本科毕业于清华大学计算机系,师从刘知远教授。

  人工智能领域一直存在着学派之争。

  曾经,“建制派”的符号主义 AI 被看作“唯一的主导力量”,“逻辑驱动”的人工智能曾主宰数十年;另一派则是代表经验主义 AI 的深度学习,不追求解释和逻辑,以神经网络和大数据开启”暴力美学“的大门。

  以 GPT 系列为代表的大语言模型就是这条“暴力美学”路线的产物。这条路现在看来是成功的,但也存在一定的局限性。

  从人工智能诞生的第一天起,计算机科学家们一直在比较以神经网络为代表的经验主义 AI 与以数理逻辑为代表的符号主义 AI 的优劣。简单来说,经验主义 AI 主张通过对大量数据的学习来获取知识,而符号主义 AI 则强调精确的任务定义和严谨的数学工具。

  随着近十年的算力进化,神经网络这一最典型的经验主义 AI 模型得到了飞速的发展。由于无法匹敌神经网络处理非结构化信息的能力和泛用性、无法生成非结构化数据(如自然语言),符号主义 AI 的存在感和影响力快速降低。

  但是在我看来,基于符号和逻辑的推理 (reasoning) 远比基于经验和数据的感知 (perception) 复杂。经验主义 AI 发展的顶点,正是符号主义 AI 大放异彩的起点。

  著名语言模型批评者 Gary Marcus 博士曾锐评道:“大语言模型没法做一些有严格定义的工作:遵守国际象棋规则、五位数字相乘、在家谱中进行可靠的推理、比较不同物体的重量等等。”

  “火力全开”的 Marcus 博士指出了目前大语言模型存在的问题,但是这个问题并非没有解决方法,我认为:大语言模型(LLM)只是不能通过生成文本做有严格定义的工作。大语言模型可以通过生成 “自然语言嵌入式程序” (natural language embedded program, NLEP)准确完成上述工作。

  NLEP 是我与麻省理工学院(MIT)、香港中文大学(CUHK)研究团队共同研发的一种兼顾符号推理和自然语言生成的程序。它将语言智能抽象为「“思维”编程 + 程序执行」两个步骤,能让大语言模型同时具有生成自然语言和精确执行复杂推理任务的能力。

  在传统认知里,符号 AI 无法处理非结构化数据和生成自然语言。而 NLEP 的方法证明,符号 AI 可以处理非结构化数据、自然语言,还可以强化非结构化数据深层的结构规律和推理能力。

  或许在不久的将来,符号主义有潜力替代经验主义。

  接下来,我将从 Marcus 博士的锐评出发,讨论以下内容:

  经验主义 AI 难以突破推理的瓶颈;

  文本到思维的抽象、思维的程序化表示;

  OpenAI 代码解释器的局限;

  NLEP 范式的能力与优势。

  1.大模型与醉酒的人相似

  当前最先进的神经网络模型其实与醉酒的人相似。

  他们都努力与人互动、跟随简单指令生成信息,少数还试图驾驶交通工具。同时,他们也都带来了商业机遇和社会风险,并可能引起广泛讨论。

  人类认知功能不完整时(如醉酒、梦呓、疾病等),语言行为往往是脱离逻辑思维的。

  这时,人类只是依赖语言本能,把输入信号强行拼凑成有一定语法结构的句子(文本补全)。表达的内容可能是如李白斗酒诗百篇般的艺术瑰宝,也可能只是毫无意义的胡言乱语。

  事实上,人类大脑语言区域的发现正是基于临床医生对认知功能受损、保留了部分语言能力患者的研究。类似的科学方法也被大量应用于探索 AI 模型行为和规律的研究中。

  随着算力的快速发展,OpenAI 等机构花费数百亿美元构建了参数量远超人类语言器官的神经网络,和文本量远超人类阅读极限的训练数据,为体积远大于人脑的机器赋予了类似的文本补全能力。

  但此类模型生成的究竟是 “语言” 还是 “梦呓”?

  这个问题已经在学术界引起了激烈争论。争论的结果关乎社会和业界对 AI 可解释性、可靠性、安全性的认可程度。而决定结果的关键就在于语言模型是否存在可控、准确的思维能力。

  为了回答这一核心问题,谷歌旗下研究机构 DeepMind 的最新论文指出,语言模型本质上是信息的压缩模型。

  只要模型的表示能力足够强(参数量足够)、被压缩的训练数据量足够大,语言模型就能在压缩信息的过程中抽象出一定的思维能力,包括推理、计算、预测等等。

  最先进的语言模型(例如 GPT-4)展现出的回答问题、跟随指令、编写代码的能力显然早已超越了任何人类的 “梦呓”。但如果说 GPT-4 和基于 GPT-4 的种种 Agent 足够可靠,似乎为时尚早。

  GPT-4 是极端经验主义 AI 的代表:把世界上所有的高质量文本、程序、数学、对话数据压缩到算力允许的最大模型里,再抽象出这一技术路线蕴含的最强思维能力。它没有可靠推理引擎的支撑,完全依赖简单粗暴、类似“死记硬背”的大量训练。无论多少计算和数据资源,都无法掩盖和弥补 GPT-4 本质的推理缺陷。就如同酒驾的司机,无论酒量多好、多么侥幸,都无法避免酒精对人反应和判断能力的本质危害。

  正如不同的任务对人的思维严谨程度有不同要求,当前的语言模型更适用于能容忍甚至欢迎一些噪声的应用场景,但在需要执行准确、可控的复杂推理任务时,其可靠性有根本的缺陷。GPT-4 甚至会在回答一些并不复杂的问题时生成自相矛盾的文本,如下图所示:

  实际上,吴丹(U Thant)是第一位来自于亚洲的联合国秘书长,潘基文(Ban Ki-moon)是第二位来自于亚洲的联合国秘书长,上图中 GPT-4 的回答并不准确。

  能力如此强大的 GPT-4,却依然会在简单的问答中生成自相矛盾的语言,这也佐证了现阶段语言模型推理的不可靠性。

  2.文本补全模型的瓶颈就在文本

  人类运用语言的能力可以抽象成知识、推理、计算三大模块,并且语言绝对不等于文本。

  许多语言模型(文本补全模型)的问题难以解决,绝非模型不够强大,而是因为自然语言文本是思维结果的表达,并不是思维过程的载体。

  比如,我们想要学好物理,“事半功倍”的办法就需要从物理定律、求解问题、设计实验的思路出发;反之“事倍功半”的办法则是死记硬背一百本物理习题却不理解牛顿定律。采用这种方法的学习者花费更多的时间,但还是无法融会贯通地解决没见过的问题。

  这个缺陷并不是解题模型——人类大脑的问题,而是训练数据的缺陷——问题的答案只是物理定律的表象,而解题思维代表着对物理定律的直接应用。

  不可否认,“死记硬背”是实现“答对考题”的技术路线之一。与之相似,使用大型神经网络在大规模数据集上学习文本补全能力,也是当前 AI “获得思维”的技术路线。

  虽然巨量的计算资源与数据的投入让这种技术路线取得了成功,但诸多的研究和应用已经证明,这种技术路线的可靠性瓶颈会带来诸多挑战:臆想、推理能力有限、隐私泄露、合规问题等等。

  大语言模型的能力是一把双刃剑:可以处理不存在于训练数据中的新问题,但也会在其不知情的情况下,输出错误的推理结果。

  作为通过压缩文本提炼思维的黑盒模型,其知识、思维、推理能力都储存在神经网络的权重中。AI 的优势和不足都体现在以下几个方面:

  抽取真实或失实的知识和信息;

  规划非结构化的推理流程;

  由模型执行有误差的计算。

  由于以上三个模块都有可能出错,大模型的行为难以验证、解释、控制、改进。

  针对“在美国,哪种新冠病毒造成了最高的 ICU 占用量”这个问题,GPT-4模型的回答是“德尔塔变种导致的 ICU 占用量最高”。

  那真实的情况是什么?

  在 11 月 6 日的 OpenAI 开发日前,没有搜索引擎增强的 GPT-4 模型会给出定性的回答和解释:

  开发日后的 GPT-4 系统默认调用必应搜索引擎,会基于搜索结果给出数据、作出一定解释和参考资料引用:

  中文翻译:

  获得搜索增强的 ChatGPT 生成了更有说服力、文本更专业的回复。尤其是在其中三处引用了参考资料网址,更加提高了用户阅读答案后的满意度(和被误导的可能性)。

  遗憾的是, ChatGPT 的用户很难验证答案的正确性。事实上,重复问最新的(2023 年 11 月 13 日)、搜索引擎加持的 GPT-4 同样的问题,它还会生成各种不同的回答:

  回答 a:“奥密克戎变异 – 占用了高达 30.4% 的 ICU 病床。”

  回答 b:“虽然感染了德尔塔变异的病人最多占用了 31% 的 ICU 病床,但奥密克戎病人占用了更多。”

  回答 c:“好像不是奥密克戎变异,好像是德尔塔变异。”

  虽然在不同尝试中 GPT-4 的回答自相矛盾,但是每一次回答生成的文本看起来都很正式、客观、有说服力、甚至附带搜索引擎给出的参考文献。未经多次验证答案的读者很容易受到误导。

  语言模型的这种能力非常适合于创作和想象:给一个标题,写三个小故事之类的任务对于 ChatGPT 而言恰到好处。但遗憾的是,这种不可控的行为模式,在回答需要严谨推理的问题时应该被尽量避免。

  更遗憾的是,虽然给了 GPT-4 多次尝试的机会甚至搜索引擎的加持,上述新老 GPT-4 猜测的答案中没有一个是正确的。

  根据权威统计机构数据看世界(Our World in Data)信息,美国因新冠病毒导致的 ICU 病床日占用量峰值应发生在 2020 年冬天阿尔法变异流行期间。GPT-4 基于必应搜索引擎提供的大量“比较德尔塔与奥密克戎变种病毒”的文章得出“德尔塔或奥密克戎变异造成了最高的 ICU 病床占用量”是不准确的。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论