0°

ChatGPT参数200亿?微软多次撤稿

  最近关于ChatGPT参数只有200亿的事情在各大社区、社群引起讨论。问题源于微软发布的一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文,在做对比的时候透露出了重要信息:ChatGPT 是“只有”20B(200 亿)参数的模型。后续微软撤稿两次,并表示文章中对 ChatGPT 参数数量的猜测来自于一篇博客,作者们并未了解或者验证ChatGPT的参数,直接用了博客的内容,这才带来了公众的误导。

  这篇论文提出了一种预训练的扩散代码生成模型 ——CodeFusion。现有的自动回归代码生成模型在生成代码时存在一个限制,即不能轻易地重新考虑之前生成的令牌。CodeFusion通过迭代去噪一个基于编码自然语言的条件程序,从而解决了这一问题。

  另外,Agents更加火爆。如果说之前的火爆只是硅谷大佬或者OpenAI等大型公司的“狂欢”,那现在是越来越多Agents方向的创业公司和社区,越来越多的AI Agents出现在人们生活的各个场景下。

  10月,一共整理了22篇论文,包括DALL-E 3论文、大模型下一阶段-Auto-Instruct,清华大学提出AgentTuning等。让我们通过AMiner AI功能,一起探寻论文背后的核心思想和创新点,快速了解论文细节。

  1. Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models

  这篇论文介绍了一种名为 Auto-Instruct 的方法,用于自动提高向大型语言模型(LLM)提供的指令的质量。该方法利用 LLM 的生成能力为给定任务生成多种候选指令,然后使用一种训练于多种 575 个现有 NLP 任务的评分模型对它们进行排名。在 118 个领域外任务的实验中,Auto-Instruct 超过了人类编写的指令和现有的 LLM 生成的指令基线。此外,即使对于那些没有包含在其训练过程中的其他 LLM,我们的方法也表现出显著的泛化能力。

  链接:

  https://www.aminer.cn/pub/6535d747939a5f408295c42e/?f=toutiao

  2. AgentTuning: Enabling Generalized Agent Abilities for LLM

  这篇论文介绍了 AgentTuning 方法,该方法可以增强大型语言模型 (LLM) 的代理能力,同时不影响其通用能力。在现实世界中的复杂任务中,LLM 作为中心控制器负责规划、记忆和工具利用,需要细粒度的提示方法以及健壮的 LLM 才能实现满意的性能。虽然已经提出了许多提示方法来完成特定的代理任务,但缺乏针对提高 LLM 本身代理能力的研究,而无需牺牲其通用能力。该研究提出了 AgentTuning 方法,这是一种简单且通用的方法,可以增强 LLM 的代理能力,同时保持其通用 LLM 能力。通过构建包含高质量交互轨迹的轻量级指令调整数据集 AgentInstruct,并采用混合指令调整策略将 AgentInstruct 与开源指令相结合,从而实现了对 Llama 2 系列模型的调整,得到了 AgentLM。实验结果表明,AgentTuning 可以在不影响通用能力的情况下增强 LLM 的代理能力。AgentLM-7B 在未见过的代理任务上与 GPT-3.5-turbo 相当,证明了其具有泛化的代理能力。该研究在 GitHub 上开源了 AgentInstruct 和 AgentLM-7B、13B 和 70B 模型,为代理任务提供了开放且强大的替代方案。

  链接:

  https://www.aminer.cn/pub/6531e2ca939a5f4082f5d5f7/?f=toutiao

  3. Contrastive Prefence Learning: Learning from Human Feedback without RL

  这篇论文介绍了一种名为对比偏好学习(CPL)的新算法,该算法可以从人类反馈中学习最优策略,而无需学习奖励函数。传统的强化学习从人类反馈(RLHF)方法分为两个阶段:首先,使用人类偏好学习奖励函数;然后,通过强化学习(RL)优化所学奖励以使模型与人类意图对齐。然而,这种范式不仅基于对人类偏好的错误假设,而且由于策略梯度或 bootstrapping 在 RL 阶段导致的优化挑战,还导致难以处理的优化问题。为了解决这些问题,现有的 RLHF 方法限制自己仅在上下文性随机化设置(例如大型语言模型)或限制观察维数(例如基于状态的机器人技术)。

  通过引入一种基于后悔的人类偏好模型来优化人类反馈的行为的新算法,我们克服了这些局限。利用最大熵原理,我们推导出对比偏好学习(CPL),一种无需学习奖励函数即可从偏好中学习最优策略的算法,从而绕过了 RL 的需求。CPL 是完全离线的,仅使用简单的对比目标,并可以应用于任意 MDP。这使得 CPL 可以优雅地扩展到高维和序列 RLHF 问题,同时比以前的方法更简单。

  链接:

  https://www.aminer.cn/pub/6535d747939a5f408295c635/?f=toutiao

  4. SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

  这篇论文介绍了”上下文预训练”(In-Context Pretraining)这一新方法,用于训练大型语言模型(LMs)。现有的预训练流程通过将随机短文档拼接在一起来创建输入上下文,但这些先前的文档无法为预测下一个文档提供信号。而”上下文预训练”则是将语言模型在相关文档序列上进行预训练,从而明确鼓励模型阅读和跨越文档边界进行推理。通过简单地改变文档排序,使每个上下文包含相关文档,并直接应用现有的预训练流程,我们可以实现”上下文预训练”。但是,文档排序问题具有挑战性,因为数据量达到数十亿,我们希望对每一份文档最大化上下文相似性而不重复任何数据。为了解决这个问题,我们引入了高效的近邻搜索和图遍历算法来寻找相关文档和构建一致的输入上下文。实验结果表明,”上下文预训练”能够简单且大规模地显著提高 LM 的性能,在需要更复杂上下文推理的任务中(包括上下文学习、阅读理解、对先前上下文的忠实度、长上下文推理和检索增强),都取得了明显的改进(+8%、+15%、+16%、+5%、+9%)。

  链接:

  https://www.aminer.cn/pub/65387a3d939a5f4082980293/?f=toutiao

  5. In-Context Pretraining: Language Modeling Beyond Document Boundaries

  这篇论文介绍了”上下文预训练”(In-Context Pretraining)这一新方法,用于训练大型语言模型(LMs)。现有的预训练流程通过将随机短文档拼接在一起来创建输入上下文,但这些先前的文档无法为预测下一个文档提供信号。而”上下文预训练”则是将语言模型在相关文档序列上进行预训练,从而明确鼓励模型阅读和跨越文档边界进行推理。通过简单地改变文档排序,使每个上下文包含相关文档,并直接应用现有的预训练流程,我们可以实现”上下文预训练”。但是,文档排序问题具有挑战性,因为数据量达到数十亿,我们希望对每一份文档最大化上下文相似性而不重复任何数据。为了解决这个问题,我们引入了高效的近邻搜索和图遍历算法来寻找相关文档和构建一致的输入上下文。实验结果表明,”上下文预训练”能够简单且大规模地显著提高 LM 的性能,在需要更复杂上下文推理的任务中(包括上下文学习、阅读理解、对先前上下文的忠实度、长上下文推理和检索增强),都取得了明显的改进(+8%、+15%、+16%、+5%、+9%)。

  链接:

  https://www.aminer.cn/pub/652def0c939a5f4082b54103/?f=toutiao

  6. A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge

  这篇论文对向量数据库进行了全面的调查,包括存储和检索技术以及挑战。向量数据库用于存储传统数据库管理系统无法描述的高维数据。尽管关于现有或新型向量数据库架构的文章并不多,但向量数据库背后的近似最近邻搜索问题已经研究了很长时间,可以在文献中找到很多相关的算法文章。本文试图全面回顾相关算法,为读者提供一个关于这个繁荣的研究领域的全面了解。我们的框架基于解决 ANNS 问题的方法对这些研究进行了分类,分别是基于哈希、树、图和量化方法的。然后,我们概述了向量数据库目前面临的挑战。最后,我们勾画了如何将向量数据库与大型语言模型相结合,从而提供新的可能性。

  链接:

  https://www.aminer.cn/pub/65309159939a5f4082843ddf/?f=toutiao

  7. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

  这篇论文介绍了一种名为 Self-RAG 的新框架,通过自我反思来提高语言模型的质量和真实性。现有的大型语言模型 (LLMs) 通常由于仅依赖于它们参数化的知识而产生包含事实错误的响应。检索增强生成 (RAG) 是一种临时方法,通过检索相关知识来增强 LLMs,从而减少这种问题。然而,不论检索是否必要,不分检索到的段落是否相关,一概检索并包含固定数量的检索到的段落,会降低 LLM 的灵活性,或导致生成无帮助的响应。Self-RAG 框架通过检索和自我反思来增强 LLM 的质量和平事实性。该框架训练一个单一的任意 LLM,根据需要自适应地检索段落,并使用特殊标记(称为反思标记)生成和反思检索到的段落及其自身的生成。生成反思标记使得 LLM 在推理阶段可控,从而使其行为适应多样化的任务要求。实验结果表明,Self-RAG(7B 和 13B 参数)在多样化的任务上显著优于最先进的 LLMs 和检索增强模型。具体而言,Self-RAG 在开放领域问答、推理和事实验证任务上优于 ChatGPT 和检索增强的 Llama2-chat,并且相对于这些模型,它在提高长篇生成的准确性和引文准确性方面取得了显著的进步。

  链接:

  https://www.aminer.cn/pub/65309159939a5f4082843d1b/?f=toutiao

  8. ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search

  这篇论文介绍了一种名为 ToolChain的方法,用于解决大型语言模型(LLM)在处理复杂现实问题时面临的行动空间导航问题。该方法基于 A搜索算法,将整个行动空间视为一棵决策树,每个节点代表可能参与解决方案计划的 API 函数调用。通过结合任务特定的成本函数设计,ToolChain能够有效地剪枝可能涉及错误行动的高成本分支,找出最短路径作为解决方案。在多个工具使用和推理任务上的大量实验证明,ToolChain能够在扩展的行动空间内平衡探索和利用,在规划和推理任务上分别比最先进的基线高 3.1% 和 3.5%,同时分别需要 7.35 倍和 2.31 倍的时间。

  链接:

  https://www.aminer.cn/pub/6535d747939a5f408295c495/?f=toutiao

  9. Towards Graph Foundation Models: A Survey and Beyond

  这篇论文探讨了图基础模型(Graph Foundation Models, GFMs)的发展趋势。基础模型作为人工智能应用的基本构建块,已经在自然语言处理等多个领域取得了显著的成功。与此同时,图机器学习也经历了革命性的转变,浅层方法逐渐被深度学习方法所取代。基础模型的出现和同质化能力引起了图机器学习研究者的兴趣,激发了关于开发基于广泛图数据预训练且能适应广泛下游图任务的下一个图学习范式的讨论。然而,目前还没有关于这类工作的明确定义和系统分析。在这篇文章中,作者提出了图基础模型的概念,并首次全面阐述了它们的关键特性和技术。随后,作者将现有关于 GFMs 的研究分为三类,根据它们对图神经网络和大型语言模型的依赖性进行分类。除了对图基础模型的当前研究进行全面概述外,本文还讨论了该领域未来可能的研究方向。

  链接:

  https://www.aminer.cn/pub/65309159939a5f4082843e5f/?f=toutiao

  10. COGVLM: VISUAL EXPERT FOR LARGE LANGUAGE MODELS

  这篇论文介绍了 CogVLM,一个强大的开源视觉语言基础模型。与流行的浅层对齐方法不同,CogVLM 通过在注意力和 FFN 层中的可训练视觉专家模块,弥合了预训练语言模型和图像编码器之间的差距。因此,CogVLM 能够在不牺牲 NLP 任务性能的情况下,实现视觉语言特征的深度融合。CogVLM-17B 在 10 个经典的跨模态基准测试中取得了最先进的性能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,并且在 VQAv2、OKVQA、TextVQA、COCO captioning 等任务中排名第二,超过了或与 PaLI-X 55B 相媲美。

  链接:

  https://www.aminer.cn/pub/65260ee8cd549670787e1513/?f=toutiao

  11. Improving Image Generation with Better Captions

  这篇论文研究了如何通过更好的字幕来提高图像生成效果。作者发现,现有的文本到图像模型在遵循详细图像描述方面存在困难,常常忽略一些词或混淆提示的意义。他们认为,这一问题源于训练数据集中的噪声和不准确的图像字幕。为了解决这个问题,作者训练了一个定制的图像字幕生成器,并用它重新为训练数据集生成字幕。然后,作者训练了几个文本到图像模型,并发现通过训练这些合成的字幕,可以可靠地提高模型遵循提示的能力。最后,作者利用这些发现构建了 DALL-E 3:一个新的文本到图像生成系统,并在针对提示跟随、连贯性和美学设计的评估中对其性能进行了基准测试,发现其表现优于竞争对手。为了便于未来的研究,作者发布了这些评估的样本和代码,以便继续优化文本到图像系统的重要方面。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论