对于ChatGPT的出现及火爆,你的感受是什么呢?本文作者的心情是“好奇又害怕”。为什么ChatGPT能引起如此大的震动呢?以后会对人类产生什么影响?本文作者从ChatGPT的相关概念、背后的技术、商业前景,对ChatGPT进行了分析,并分享了自己的一些观点,一起来看一下吧。

作为人工智能从业者,笔者对ChatGPT进行了较深入的研究。
在研究ChatGPT的过程中,笔者始终有一种复杂的心情。静心思考,这种心情大概可以用“好奇又害怕”来形容。
好奇的是ChatGPT这样一个强大的聊天机器人是怎么实现的,同时其展现的强大能力又让笔者感到一丝害怕和担忧——奇点是不是到了?
在此将研究笔记成文一篇,同各位读者分享这份既好奇又害怕的心情。
本文将分成五个部分论述:
ChatGPT相关历史和概念的概述
从产品经理角度看ChatGPT背后的技术
为什么ChatGPT能引起如此巨大的震动
ChatGPT的商业前景
个人调研的一些观点,仅供参考
一、概况介绍
ChatGPT是美国人工智能研究公司OpenAI研发的聊天机器人程序。其于2022年11月30日发布之后,迅速引爆了互联网。
ChatGPT一经发布,用户数便一路飙升,5天内便涌入了100万用户,两个月用户总数便突破了一个亿。这个速度有多疯狂呢?我们不妨直观对比一下知名产品用户突破一个亿的时间:
手机:16年
支付宝:4年
微信:1.5年
TikTok:9个月
ChatGPT:2个月
毕竟谁能拒绝调戏一个聪明的人工智能机器人呢?笔者从12月5日注册以来,对与ChatGPT对话这件事可谓乐此不疲。

ChatGPT是基于大型语言模型(LLM)的聊天机器人。那么,ChatGPT究竟具备哪些能力呢?
语言理解:理解用户输入的句子的含义。
世界知识:指的是人对特定事件的亲身体验的理解和记忆,包括事实性知识 (factual knowledge) 和常识 (commonsense)。
语言生成:遵循提示词(prompt),然后生成补全提示词的句子 (completion)。这也是今天人类与语言模型最普遍的交互方式。
上下文学习:遵循给定任务的几个示例,然后为新的测试用例生成解决方案。
思维链:思维链是一种离散式提示学习,在大模型下的上下文学习中增加思考过程。
代码理解和代码生成:具有解读和生产代码的能力。
基于这些功能,ChatGPT最终表现出我们在聊天时体验到的强大能力。
ChatGPT对出现并不是一蹴而就的,其背后的发展时间线如下。

大体来说,ChatGPT是在Google和OpenAI在大型语言模型(LLM)领域不断竞争中结出的一颗硕果。
二、技术知识
ChatGPT使用的大型语言模型(LLM)诞生也不是一番风顺的。从深度学习发展前10年的历程来看,模型精度提升,主要依赖网络在结构上的变革。
由于语言模型的缩放定律的现象(模型尺寸呈指数增长时,性能会随之线性增加),(OpenAI)的研究者也发现即便最大的 GPT-3 在有提示的情况下也不能胜过小模型精调。所以当时并没有必要去使用昂贵的大模型。

(出处:
https://www.notion.so/514f4e63918749398a1a8a4c660e0d5b)
但是,随着神经网络结构设计技术,逐渐成熟并趋于收敛,想要通过优化神经网络结构从而打破精度局限非常困难。近年来,随着数据规模和模型规模的不断增大,模型精度也得到了进一步提升,研究实验表明,当模型尺寸足够大时,性能会显著提高并明显超越比例曲线。
简而言之,当模型参数增加到一定程度,就会涌现出远超小模型的强大能力。
因此大规模预训练模型得到了迅速地发展,尤其在NLP领域。
大模型的规模有多大呢?
2018年谷歌发布了拥有3亿参数的BERT预训练模型,正式开启AI的大模型时代。到 19年T5(谷歌)110亿,20年GPT-3(OpenAI)750亿,21 年GLaM(谷歌)1.2万亿,M6-10T(阿里达摩院)参数量甚至已经达到 10 万亿。
大型语言模型(LLM)背后涉及的技术过于复杂,笔者只是了解了个大概,后面介绍几个印象非常深刻的技术点。
1. 提示学习(Prompt Learning)
提示学习(Prompt Learning)是一个NLP界最近兴起的学科,能够通过在输入中添加一个提示词(Prompt),使得预训练模型的性能大幅提高。
目前大家听到的深度学习、大型语言模型(LLM)等概念,本质上都是一种模仿人类神经系统的神经网络模型。神经网络由多层处理单元(类比人的神经元)组成,上一层的输出作为下一层的带权重的输入参数,不同的信息输入,经过网络处理就可能得到各自的结果。

把我们自己比作处理单元,那么我们可能同时接收到来自不同人的请求,如老婆、父母、孩子,不同人对我们的影响力是不同的,即来自不同人的指令是带有权重的,我们对所有的请求进行综合权衡,然后得到一个结论。比如对于一个妻管炎来说,可能老婆的意见会起到决定性的作用。
网络参数是由训练数据决定的。就如同我们过往的经历决定了不同人对我们的影响力。再用妻管炎举例,就是其老婆过往严厉的管教,导致他倾向于更服从老婆的意见。
使用一个神经网络更省事的方法就是用现成的(预训练模型),再根据自己的需要微调,即前文提到模型精调。Fine-tuning就是其中非常有效的方法,即冻结预训练模型的部分网络层(通常是靠近输入的多数网络层),训练剩下的网络层(通常是靠近输出的部分网络层)。
Fine-tuning的本质还是改变网络参数。但是大模型的规模不断增大,其需要调整的参数也会急剧膨胀。于是人工智能科学家就提出了一种更有效调整大模型的方法:Prompting。
Prompting的方法非常简单,其不会改变预训练模型的任何参数,只是为模型提供一定量的提示(prompt),然后就可以提升大模型的能力。就像给一个妻管炎的人看几个不是妻管严的人的一些故事,然后他就可以摆脱妻管炎的情况了。
我们可以看到对于大型语言模型(LLM)来说,Prompting具有巨大的优势,其避免了对大量进行微调参数的工作量,也不需要传统方法依赖的专业的语料标注(分词、词性、情感等),把相关的人类自然语料提示给模型即可。

(出处:
https://zhuanlan.zhihu.com/p/406291495)
2. GPT的标注方法
ChatGPT的标注方法使用了基于人类反馈的强化学习的指令微调(RLHF),其官网给出的标注过程如下。
根据论文《Training language models to follow instructionswith human feedback》解释,其过程大致如下:

第 1 步:收集演示数据,并训练监督策略。我们的标注者提供了输入提示分布上所需的示范(提出多样化随机的任务,有多个匹配响应的指令,基于用户的提示)。然后,我们使用监督学习对该数据微调预训练的 GPT-3 模型。
第 2 步:收集对比数据,训练奖励模型(RM)。我们收集了模型输出之间比较的数据集,其中标注着指出他们更喜欢的给定输入的输出。然后我们训练奖励模型来预测人类偏好的输出。
第 3 步:使用 PPO(概率加权随机策略搜索)对抗奖励模型以优化策略。我们使用 RM 的输出作为标量奖励。我们使用 PPO 算法微调监督策略以优化此奖励。
步骤2和步骤3可以不断迭代;收集当前最佳策略的更多比较数据,用于训练新的 RM,然后训练新的策略。在实践中,我们的大部分比较数据来自我们的有监督策略,也有一些来自我们的 PPO 策略。
大致就是训练了两个模型,并使用强化学习的方法。一个是用于优化训练的奖励模型(RM),该模型是经过人工调教的,更懂人的期望输出;另一个是目标模型。将目标模型的输出结果输入到奖励模型(RM),然后告诉目标模型你这个结果是否符合预期,以调整目标模型。然后不断优化奖励模型(RM),再训练模板模型。
翻译成人话就是训练一个更了解人的老师模型,然后去教育学生模型,对了就表扬,错了就打板子。学生水平接近老师后,就再提升老师的能力,继续重复对学生的教育过程……如此往复就得到了一个非常了解人的学生模型。
据说OpenAI雇佣了40人团队完成RLHF的标注工作。最近外媒爆出一个劲爆消息,称“ChatGPT背后的“血汗工厂”:最低时薪仅1.32美元,9小时至多标注20万个单词,有员工遭受持久心理创伤。”
3. 基于思维链的复杂推理
笔者通过阅读符尧博士的相关文章,意识到思维链推理是是非常重要的功能,其被认为是一种重要的范式转移。思维链提示在性能-比例曲线中表现出明显的相变。当模型尺寸足够大时,性能会显著提高并明显超越比例曲线。

(出处:
https://www.notion.so/514f4e63918749398a1a8a4c660e0d5b)
当使用思维链进行提示时,大模型在复杂推理上的表现明显优于微调,在知识推理上的表现也很有竞争力,并且分布鲁棒性也存在一定的潜力。要达到这样的效果只需要8个左右的示例,这就是为什么范式可能会转变。
什么是思维链呢?
思维链是一种离散式提示学习,在大模型下的上下文学习中增加思考过程。相比于之前传统的上下文学习,思维链多了中间的一些推理过程,以下面这张图为例子:

(出处:
https://zhuanlan.zhihu.com/p/493533589)
那么模型规模达到多大,思维链会出现明显的相变呢?两个数字:62B 和 175B。
模型至少需要62B,使思维链的效果才能大于标准的提示词方法。
模型至少需要175B(GPT3的尺寸),思维链的效果才能大于精调小模型(T5 11B)的效果。
思维链是怎么出现的?
根据符尧博士的观点,使用思维链进行复杂推理的能力很可能是代码训练的一个神奇的副产物。有以下的事实作为一些支持:
最初的 GPT-3 没有接受过代码训练,它不能做思维链。其中有的模型虽然经过了指令微调,但相关论文报告说,它的它思维链推理的能力非常弱 —— 所以指令微调可能不是思维链存在的原因。
PaLM 有 5% 的代码训练数据,可以做思维链。
GPT-3用159G的代码数据量训练后,得到的模型及其后续变体可以做思维链推理。
在 HELM 测试中,Liang et al. (2022) 对不同模型进行了大规模评估。他们发现了针对代码训练的模型具有很强的语言推理能力。
直觉来说,面向过程的编程跟人类逐步解决任务的过程很类似,面向对象编程 跟人类将复杂任务分解为多个简单任务的过程很类似。
以上所有观察结果都是代码与思维链推理之间的相关性,但不一定是因果性。需要后续更深入的研究揭示。
总之,以ChatGPT为代表的大型语言模型(LLM)在技术层面出现了很多令人振奋的结果。
三、为何引起如此震动
1. 有趣而令人担忧
作为普通的用户可以发现基于大型语言模型(LLM)ChatGPT有极大的不同,简单来它能力极其强大,且太像人了,跟他聊天的时候经常会产生在与一个真人聊天的错觉。
它能聊天、写专业的文章、解答非常复杂的问题、理解文字内容、写代码、查bug、帮人制定计划、甚至给出合理的人生建议,感觉其上天入地,无所不能。
其对人类语言的理解能力,聊天(多轮对话)上下文的连贯能力,对感情、哲学等人文思想的理解,都让人叹为观止。
正因为如此,笔者在整个研究过程中会持续被既好奇又害怕的情绪困扰着,时而为如此强大技术的应用前景振奋不已,时而又为人类的未来感到忧虑和产生生而为人的无力感。
笔者想,这也是大家如此热衷于调戏它并且乐于传播的原因:愚弄笨蛋难以有成就感,只有愚弄聪明人才值得炫耀。
类似的聊天大家应该或亲身体验过,或看过别人聊天的截图,不知是否有类似的感受?
因此短短两个月就能突破1亿用户,也就不足为奇了。
2. 技术与商业两开花
所谓“科技是第一生产力”,更重要的是技术层面影响。从上文介绍我们可以看大型语言模型(LLM)在技术上的巨大突破:
当模型达到一定规模时,涌现了思维链的能力,突破了语言模型的缩放规律。思想链提示的性能明显优于其之前的精调方法。
基于人类反馈的强化学习的指令微调触发了诸多新的能力,比如翔实的回应、公正的回应、拒绝不当问题、拒绝其知识范围之外的问题。
为人工智能模型性能提升开辟了新的康庄大道。影响其模型性能的关键在于模型规模和提示(prompt)的有效性。
扩大模型规模要远比网络在结构上的变革轻松,从上文模型规模的发展可以看出,短短4、5年的时间,模型规模就从3亿飙升到了10万亿,后者是前者的3万多倍!
提示(prompt)的学习方式也具备巨大的优点。其数量要求不多,且无需结构化的数据标注。
这些技术突破意味着,不仅人工智能的能力将得到极大突破,商业也将变得更加简单:想要部署、应用大型语言模型(LLM)的公司,都能够比较轻松地完成对模型的调教,以适配自己的业务。
3. 开启未来的钥匙
ChatGPT所代表的大模型,可能是实现通用人工智能(GAI)的可行性路径。
信息科学这门学科在20世纪40年代诞生以后,在当时人们看见的蓝图里,不仅是根据人类预设的指令和程序,快速地传递、计算和处理人类无法想象的天量数据,而是不仅能够完成计算和信息传输,甚至还将是一种能够和人类一样可看、可听、可写、可说、可动、可思考、可复制自身甚至可以有意识的机械,即通用人工智能(GAI)。
然而到了出现互联网、智能手机、触及量子极限的芯片等前人无法想象的科技成果的今天,通用人工智能(GAI)似乎仍然是个可望而不可即的梦想。
在ChatGPT出现之前,人工智能能在智力游戏中战胜顶尖的棋手,能在电子游戏中完成人力不可及的极限操作,能以超高精度识别人脸,但是其语言表达、学习、思考、创新等能力仍远不能满足人的期望。
大模型不仅表现出了类人的语言表达、学习、思考、创新等能力,更是实现了多种能力的融合。比如大型语言模型(LLM)自然语言和编程能力的融合,还有去年同样火爆一时的AI绘画展现的绘画和自然语言能力的融合。
我们很自然的可以想到,在现实世界,人类所展现的智能是一体的。我们语言和视觉的结合,能让我们理解眼前有哪些事物、它们与环境的边界在哪里,或者根据文字描述完成一幅画的创作;语言和听觉的结合,能让我们创作一首歌曲,或者理解歌曲传达的内涵和情感。
同样的,我们有理由相信,文本、代码、图像、声音等各类信息在大模型中的融合,将会把人工智能的智能推向新的高度,并有可能实现通用人工智能(GAI)的梦想。
4. ChatGPT的不足
当然,我们离通用人工智能(GAI)还有很远,以ChatGPT为代表的大型语言模型(LLM)还存在诸多不足,包括但不限于:
模型存在对事实的凭空捏造。比如让谷歌股价大跌的Bard捏造关于韦伯空间望远镜的事实。
同一个问题用不同的问法可以产生完全矛盾的观点。比如下面笔者通过诱导让它说出了反人类的描述。
当模型产生上述错误时,我们可能很难纠正它。
其很难完成严谨的逻辑推理。我们经常可以发现其可能出现低级的数字运算错误。
缺乏实时学习的能力,比如从互联网检索信息并学习。
存在大量偏见、违背社会伦理道德的回答。

此外其训练成本极高,据估计,GPT-3模型一次训练就要花费为200-1200美元。且ChatGPT为了支持每日访问的算力和电费等开销也可能高达百万美元。这远非一般的公司可以染指的领域。
总体来说,前途是光明的,道路是曲折的。