0°

“ChatGPT”是什么?投资圈为何爆炒?

  去年11月份发布的ChatGPT,由于其强大的对话、写作等能力,掀起了一波浪潮。本文作者以一个AI产品经理的视角,对ChatGPT的技术原理、厉害之处、可能的落地方向等方面进行了全面的解析,相信你看完后,会对ChatGPT有更深入的了解。

  最近一段时间持续在关注两个技术方向:

  ChatGPT所代表的大语言模型对NLP领域的推动

  Diffusion算法对图像领域的推动

  今天这篇会先展开说一说ChatGPT,大致上包含以下方面:

  讲明白ChatGPT的技术原理(放心,是科普向的原理,没有任何公式)

  说明白ChatGPT的技术到底厉害在哪里

  ChatGPT可能的落地应用方向

  AI产品经理在这波浪潮中可以做些什么

  对技术不感兴趣的可以直接滑动到屏幕将近一半的位置阅读第三部分和第四部分。

  前言:一个AI产品经理的触动

  2022年11月30日,ChatGPT发布,5天内涌入100W用户。

  他拥有持续的上下文对话能力,同时支持文章写作、诗词生成、代码生成等能力。

  如果用旧技术去理解他,我们通常会认为他的背后是由复合Agent组合起来支撑的。

  复合Agent是什么意思呢?即有若干个术业有专攻的Agent:有一个负责聊天对话的,一个负责诗词生成的,一个负责代码生成的, 一个负责写营销文案的等等等等。

  每个Agent只擅长做自己的那部分事情,而在用户使用的过程中,系统会先判定用户的意图是什么,应该是哪个Agent,然后再将用户的命令分发给对应的agent去解决并提供答案。

  因此看起来是很厉害的机器人,背后其实是若干个术业有专攻的机器人。事实上Siri、小爱、小度,小冰甚至包括各个平台的客服机器人都是这种模式。这样当你要上线一个新能力(例如写古诗),你只需要新增训练一个Agent,然后将这个Agent接入到总控的分类意图器下就行。

  这也是当前时代的一个缩影,不管外行人如何看待你从事的行业,不管媒体是如何一次次人云亦云地说警惕AI取代人类,你一直都知道,你在做的只是训练出一个术业有专攻的机器人而已,离真正的人工智能十万八千里。

  但ChatGPT的能力不再是这种模式了,他所采用的模式是大语言模型+Prompting。所有的能力通过一个模型实现,背后只有一个什么都会的机器人(即大语言模型),并支持用户借助文字下达命令(即Prompting,提示/指示)。

  虽然这种能力的表现还不算完美,但是他开启了一条一种通向“通用型人工智能”的道路,曾经科幻故事里的Jarvis,moss好像真的有了那么一点可能。而这才是7年前,我踏入这个行业所憧憬的东西啊。

  可能你对我的震撼有点无法理解,我接下来会讲明白他的技术原理,带你慢慢感知这项技术的厉害之处,下面正式进入正文。

  第一部分:ChatGPT的技术原理

  首先,我们要弄明白,NLP任务(自然语言处理,AI的一个技术领域,即文本类的AI任务)的核心逻辑是一个“猜概率”的游戏。

  比如说,“我今天被我老板___”,经过大量的数据训练后,AI预测空格出会出现的最高概率的词是“CPU了”,那么CPU就会被填到这个空格中,从而答案产生——“我今天被我老板CPU了”。

  虽然非常不可思议,但事实就是这样,现阶段所有的NLP任务,都不意味着机器真正理解这个世界,他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。只是我们靠知识和智慧,AI靠概率计算。

  而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即Bert和GPT。

  其中BERT是之前最流行的方向,几乎统治了所有NLP领域,并在自然语言理解类任务中发挥出色(例如文本分类,情感倾向判断等)。

  而GPT方向则较为薄弱,最知名的玩家就是OpenAI了,事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。

  接下来我们详细说说BERT和GPT两者之间的差别。

  BERT:双向 预训练语言模型+fine-tuning(微调)

  GPT:自回归 预训练语言模型+Prompting(指示/提示)

  每个字都认识,连到一起就不认识了是吗哈哈。没关系,接下来我们把这些术语逐个拆解一遍就懂了。

  1. 「预训练语言模型」

  我们通常认知里的AI,是针对具体任务进行训练。例如一个能分辨猫品种的Agent,需要你提供A-缅因猫,B-豹猫这样的数据集给他,让它学习不同品种之间的特征差异,从而学会分辨猫品种这项能力。

  但大语言模型不是这样运作的,他是通过一个大一统模型先来认识这个世界。再带着对这个世界的认知对具体领域进行降维打击。

  在这里让我们先从从NLP领域的中间任务说起。像中文分词,词性标注,NER,句法分析等NLP任务。他们本身无法直接应用,不产生用户价值,但这些任务又是NLP所依赖的,所以称之为中间任务。

  在以前,这些中间任务都是NLP领域必不可少的。但是随着大型语言模型的出现,这些中间任务事实上已经逐步消亡。而大型语言模型其实就是标题中的“语言预训练模型”。

  他的实现方式是将海量的文本语料,直接喂给模型进行学习,在这其中模型对词性、句法的学习自然而然会沉淀在模型的参数当中。我们看到媒体对ChatGPT铺天盖地的宣传里总是离不开这样一句话——在拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型。

  这里面3000亿单词就是训练数据。而1750亿参数就是沉淀下来的AI对这个世界的理解,其中一部分沉淀了Agent对各类语法、句法的学习(例如应该是两个馒头,而不是二个馒头,这也是中间任务为什么消亡的原因)。而另外一部分参数参数则储存了AI对于事实的认知(例如美国总统是拜登)。

  也就是经过预训练出一个这样的大语言模型后,AI理解了人类对语言的使用技巧(句法、语法、词性等),也理解了各种事实知识,甚至还懂得了代码编程,并最终在这样的一个大语言模型的基础上,直接降维作用于垂直领域的应用(例如闲聊对话,代码生成,文章生成等)。

  而BERT和GPT两者都是基于大语言模型的,他们在这一点上是相同的。他们的不同在于双向/自回归,fine-tuning/Prompting这两个维度,我们接下来会重点弄明白这四个术语。

  2. 「双向 VS 自回归」

  BERT:双向。双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。例如“我__20号回家”,他在预测的时候,是同时利用“我”+“20号回家”两端的信息来预测空格中的词可能为“打算”。有点像我们做英文的完形填空,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。

  GPT:自回归。自回归就是猜概率的时候从左往右做预测,不会利用文本中右侧的内容,和BERT相反。这就有点像我们写作文的时候,我们肯定是一边写一边想。

  两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文)。——注意,我说的是之前,后面的章节我会介绍现在的情况发生了什么变化。

  3. 「fine-tuning VS Prompting」

  假设现在预训练好的大模型要针对具体领域工作了,他被安排成为一名鉴黄师,要分辨文章到底有没有在搞黄色。那么BERT和GPT的区别在哪里呢?

  BERT:fine-tuning(微调)。微调是指模型要做某个专业领域任务时,需要收集相关的专业领域数据,做模型的小幅调整,更新相关参数。

  例如,我收集一大堆标注数据,A-是黄色,B-没有搞黄色,然后喂给模型进行训练,调整他的参数。经过一段时间的针对性学习后,模型对于分辨你们是否搞黄色的能力更出色了。这就是fine-tuning,二次学习微调。

  GPT:Prompting。prompt是指当模型要做某个专业领域的任务时,我提供给他一些示例、或者引导。但不用更新模型参数,AI只是看看。

  例如,我提供给AI模型10张黄色图片,告诉他这些是搞黄色的。模型看一下,效果就提升了。大家可能会说,这不就是fine-tuning吗?不是一样要额外给一些标注数据吗?

  两者最大的区别就是:这种模式下,模型的参数不会做任何变化升级,这些数据就好像仅仅是给AI看了一眼——嘿,兄弟,参考下这个,但是别往心里去。

  不可思议吧,但他成功了!而更令人疯狂的是,到目前为止,关于prompt明明没有对参数产生任何影响,但确实又明显提升了任务的效果,还是一个未解之谜。暂时而言大家就像程序员对待bug一样——I don’t know why , but it work lol.

  这种Prompt其实就是ICT(in-Context Learning),或者你也可以称为Few shot Promot,用大白话说就是“给你一点小提示”。

  同时还有另外一种Promot,称之为Zero shot Promot。ChatGPT就是Zero shot promot模式,目前一般称之为instruct了。

  这种模式下用户直接用人类的语言下达命令,例如“给我写首诗”,“给我做个请教条”,但是你可以在命令的过程中用一些人类语言增强AI的效果,例如“在输出答案之前,你先每一步都想一想”。就只是增加这样一句话,AI的答案效果就会明显提升。

  你可能会问这是什么魔法咒语?!

  有一个比较靠谱的猜测是这句话可能让AI回想起了学习的资料中那些推理知识好像前面都会有这句话。

  然后

  经过最近几天铺天盖地式的消息“洗礼”,很难说还有年轻人没听过ChatGPT和AIGC(人工智能生成内容),更别提那些对市场动向异常敏锐的投资机构了。

  “去年11月底ChatGPT刚推出便成为焦点,虽然后来大家普遍感觉相关报道少了,但其实到今年1月底,ChatGPT的月活用户就已经突破1亿,成为史上用户增长速度最快的消费级应用程序,这两天AIGC更是持续盘踞在国内外媒体报道对象的榜首,火热程度比之前更甚,不少投资圈的朋友都猜测这会不会成为全球AI领域的第二波热潮。”一位北京的私募人士告诉《金融时报》记者,从“效率工具”到“生产工具”,从简单复制到全新原创,ChatGPT代表了新一代AI技术方向,AI扮演的角色正在改变,由此带来的应用场景将不断延展拓宽,新的产业机遇和企业或大量涌现,AI技术类公司的商业模式也将被拓宽和优化。

  ChatGPT的横空出世并火爆全球,刺激了科技巨头们的敏感神经,已有微软、谷歌、百度、亚马逊等相继采取行动以在AIGC领域抢夺主动权;围绕着生成式AI的一级市场投资潮也正在涌现;二级市场上,人工智能板块成为领涨者,但凡与AIGC沾点儿边的企业,均获资金追捧。

  华泰证券研究所计算机首席分析师谢春生认为,ChatGPT受到广泛关注的原因在于能够实现接近人类水平的自然语言处理能力,对话逻辑也已经与人类类似。而ChatGPT成功的背后,来自独特算法模型的加持,验证了单一大模型的实战意义,同时也是AI大模型路线一次里程碑式的胜利。随着用户数量扩张,模型有望加速迭代,产品力持续升级或将带动AI赛道关注度持续提升。

  在ChatGPT持续爆火的同时,一些克制的思想也在发声:关键核心技术不成熟、技术伦理挑战突出、监管体系未形成等。任何领域的技术演进必然是一个长期的过程,能否规模化落地也需要经过市场反复检验,创新产品的价值实现离不开理性与秩序。

  国内科技公司迅速跟进

  2022年11月30日,OpenAI公司正式推出新型人工智能聊天机器人ChatGPT,迅速在全球范围内获得大量用户青睐。ChatGPT可以通过从数百万个网站收集信息,以对话式、人性化的方式生成独特的答案,为用户提供写论文、写代码、设计商业策划、担任人们的治疗师等一系列服务。其出色的聊天能力以及惊人的准确率将AI再度推上浪潮之巅。

  在此背景下,国内科技公司加速抢滩AIGC。2月7日,百度确认,此前流传的类ChatGPT聊天机器人项目名字确定为“文心一言”,英文名ERNIE Bot,3月完成内测,面向公众开放。目前,文心一言在做上线前的冲刺。近日,受相关消息影响,百度港股持续拉升,仅2月7日百度集团涨幅便超15%。

  百度表示,ChatGPT是人工智能里程碑,更是分水岭,这意味着AI技术发展到临界点,企业需要尽早布局。

  同日,三六零在互动平台表示,公司的人工智能研究院从2020年开始一直在包括类ChatGPT技术在内的AIGC技术上有持续性的投入,但截至目前仅作为内部业务自用的生产力工具使用,且投资规模及技术水平与当前的GPT-3相比还有较大差距。公司有充足的资金储备可用于购买大规模算力,在继续深入自行研发的同时,不排除寻找强有力的合作伙伴,以开放的心态搭建多方共享平台、补足短板,快速缩小差距。公司也计划尽快推出类ChatGPT技术的demo版产品。

  此外,记者了解到,包括快手、字节跳动、网易、商汤、美图等都在AIGC领域有所投入。

  一级市场掀起投资热

  近期,微软、谷歌、亚马逊等国际科技公司在探索AIGC应用场景大动作频频。除积极推动自主研发外,通过股权投资方式积极拥抱AIGC也成为一大策略。

  1月24日,微软在其官方博客宣布,已与OpenAI扩大合作伙伴关系,微软将向OpenAI进行一项为期多年、价值数十亿美元的投资,以加速其在人工智能领域的技术突破。而早在2019年、2021年,微软便已两度注资OpenAI。

  今年2月,谷歌宣布向AI公司Anthropic投资3亿美元,拿到约10%的股权份额。据悉,该公司的创始人便来自OpenAI,其产品也是智能聊天机器人,公司最新投后估值达195亿元。

  此外,据数据分析机构PitchBook的融资报告,2022年,生成式AI公司在美国筹集了约9.2亿美元,同比增长35%。进入2023年两个多月,除去微软向OpenAI投的数十亿美元,多家生成式AI公司已经筹集或正在谈判的金额累计超过7亿美元。

  国内方面,去年11月,小冰公司完成10亿元的A+轮新融资,由高鹄资本作为财务顾问,高瓴投资、IDG资本为投资方。小冰公司身为微软人工智能小冰团队,2020年分拆为独立技术研发实体,实现完全本土化。小冰框架是全球实际落地及完备度最高的AI Being基础框架,在AIGC领域的商业化成果也已广泛应用于金融、文化、纺织、旅游等垂直领域。资料显示,前述融资主要用于加速AI Being小冰框架技术研发,推动数字员工普及。

  围绕着生成式AI的投资热情不断升温,主要源于其广阔应用前景及巨大市场规模。AIGC目前已在金融、传媒、文娱、电商等多个领域得到广泛应用。

  据中信建投测算,按2021年包括游戏、短视频、直播、剧集、电影、综艺、在线音乐、图片版权、网络文学等数字内容领域1万亿元的规模来计算,AIGC的市场空间可达1千亿元。此外,AIGC还将应用到建筑、医药等其他领域。

  AI商业模式将被重构

  ChatGPT火出圈背后是“人类反馈强化模型”的应用。不同于“Siri”时代的“对不起,我没听懂您的问题”,对AI企业和创投机构而言,生成式AI利用现有文本、音频文件或图像创建新内容的技术有望带来AI商业模式的重构。

  近日,OpenAI推出ChatGPT付费订阅版ChatGPTPlus,每月收费20美元,开启产品走向商业化变现道路。华鑫证券计算机首席分析师宝幼琛认为,随着智能客服、教育、医疗、搜索引擎等应用领域不断落地,ChatGPT将与各行业应用结合后,更多付费商业模式即将落地。

  招商证券计算机行业首席分析师刘玉萍表示,与传统AI技术变现困难不同,ChatGPT采用SaaS订阅的创新收费模式打破了人们对于AI技术大多应用于嵌入式项目的固有印象,拓宽了AI企业的商业模式。AIGC商业空间将进一步打开,不仅B端用户对AIGC技术存在高需求,未来C端用户对AIGC技术的付费有望成为常态化,产业链相关企业将迎来价值重估。

  “具备AIGC大模型构建能力的企业通常为海内外科技巨头,我们判断AIGC领域头部企业将逐渐构建自身壁垒,剩余的初创公司将依附于头部企业去做应用,产业链未来将会分为技术提供方和应用开发者两种。”刘玉萍表示。

这一切莫名激活起了他死去的记忆,不自觉开始仿造那些严密的推理过程中一步步推导。而这些推导会将一个复杂问题分解成若干子问题,AI因为对这些子问题的推导,从而导致最终答案效果提升。

  综上对比下来,你会发现好像GPT这种模式比起BERT模式更符合我们对人工智能的想象:通过海量的知识成长起来,然后经过稍微引导(Prompt),他就能具备不同领域的强大能力。

  最后总结一下,ChatGPT背后的GPT模型是什么?

  在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。

  如果只基于上面的描述,你可能大概弄懂了他背后的原理,但是对于为什么他这么牛逼,你仍然无法理解。没关系,我们接着进入第二部分。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论