资讯 热点 聚焦 探测 工具 行业 公司 行情 市场 招标 地区 设计 咨询 信息 滚动 工程
您的位置: 首页>聚焦 > >正文
2023-06-26 16:00:25 来源:中信建投证券

1.模型结构:Meta提出Megabyte,优化计算成本与推理效率

Megabyte 的改进来自对 tokenization 的思考。Meta 研究团队于 2023 年 5 月提出Megabyte,其长度延展性和处理速度显著高于 Transformer 架构模型。Megabyte 是基于对 Transformer 架构的以下思考而做出改进的——Transformer 架构模型是以 token 为基本单位的1,而 token 形式的目的是将输入数据转换成计算机可以处理的形式,但 token 与单词并非一一对应,这等于带来了额外的分词成本。Megabyte 对模型处理的基础单元做出修改,从 token 改为 patch,此外引入局部模块预测 patch 内的文本序列,相当于引入二次注意力机制。

二次注意力机制大幅简化计算复杂度。据 Meta AI 研究团队,大多数任务的预测都比较简单,也就是没有必要做全局注意力计算,因而二次注意力机制降低了计算复杂度。另外,更大的 patch 降低前馈层计算资源的消耗。GPT-3 类似规模下的模型 98%的计算资源都用于计算 position-wise 2前馈层。最后,引入patch 内预测提升了计算的并行度,提升计算资源的利用率。

2.预训练:混合精度训练降低训练开销,提升整体效率

2.1混合精度训练:混合精度训练降低训练开销


(资料图)

量化通过压缩模型帮助超大参数模型训练和部署于终端。现有超大参数模型部署端侧时受限于终端计算资源和功耗,需要小、低延迟和低能耗的神经网络模型,从而节省成本。量化训练即是把高位宽(FP32)表示的权重、参数和激活值用低位宽(FP16、INT8、INT4)重新表示,并且通过浮点数转定点数将连续的数值映射为离散化的数值。目前全精度浮点(FP32)是训练神经网络采用的最标准的方法,量化训练可以减少模型大小(比如 INT8 比 FP32 位宽减少 1/4)、加快训练速度和降低访存,但同时也带来模型精度丢失的问题。

利用 NAS 和强化学习自动选择量化策略时存在三个问题 1)每次进行新的位宽选择时,需要重新估计精确度 2)不同数据类型和神经网络的搜索空间呈指数性增长,需要大量的计算资源 3)自动搜索为节省搜索时间,可能会跳过不常规位宽的搜寻,导致量化策略选择次优。为减少自动搜索的时间和空间,现有研究通过1)将目标空间转化为可微空间 2)搜索组卷积层 3)改变模型评估指标等细化方向优化自动分配位宽的速度,提高模型搜索效率。比如,2020 年 AutoQB 引入了深度强化学习6,将每个卷积层转化为二值化权重的若干组卷积层,并利用进化搜索探索组卷积层的数量,来自动探索细粒度的量化空间。HWAQ 和HWAQ-V2 7采用二阶矩阵计算权重/激活的 Hessian 特征值,计算不同层的敏感性设计混合精度策略。

3.下游调试:对PET的反思以及引入过程监督RM强化复杂问题解决能力

UCB 研究团队于 2023 年 5 月发表《The False Promise of Imitating Proprietary LLMs》,回应近期兴起的Alpaca等模型基于 GPT-4 回答作为训练数据集的浪潮(或者说模仿学习)。对比上图中的左图与中图,研究团队通过实验表明人类评估在性能接近的情况下很难辨析模型区别,这种情况下只能依赖 NLP benchmark 测试。而另一方面,增加模仿学习数据并没有本质上提升模型性能,相反提升模型参数规模则有更大幅度的优化。更进一步地,研究团队区分了 local imitation data 和broad imitationdata,前者聚焦特定任务,但发现提升模仿学习数据的多样性对缩窄模仿学习模型与原模型的性能差距没有帮助,而local imitation model 学习chatgpt 特定领域的能力则效果明显。

总体而言,UCB 研究团队通过分析得出以下结论:1)适量的 finetuning 对于模型知识/能力的提升几乎没有帮助,模型的主要能力来自预训练环节,finetune 更多是将模型能力展现出来(更符合人类的交互逻辑和方式)。这一结论间接表明 base model 的重要性,预训练模型决定了长期模型性能的上限,后期的提升可能需要非常大量的数据和额外的处理(可能意味着高昂的成本且效果并不确定);2)基于大规模数据集、计算资源和优化算法训练的大模型壁垒更稳固,基于 finetune 数据集取得领先的大模型可能壁垒并不深厚。这一结论间接提示,如果两个模型在预训练环节的数据集、算法等方面差异不大,后续优化过程中其中一家可以通过模仿学习的方式以低成本拉近和对手的差距。

3.1Alignment(对齐)

Alignment 环节的数据质量和多样性可能比数量重要。Meta 研究团队于 2023年5月发表《LIMA: Less Is Morefor Alignment》,提出 Alignment 实质是模型学习与人类交互形式的假设,即模型在预训练阶段学习知识,在Alignment 阶段学习展现知识形式(人类交互)。为测试这一假设,研究团队选取了750 个高质量问答(来自Stack Exchange,wikiHow 等论坛),并人工编写了 250 个问答,这 1000 个训练数据集保持了多元化和形式上的统一性。团队将 65B LLaMA 模型在该数据集上进行参数微调,并将调整后的模型与GPT-4、Claude、BARD、Davinci003、Alpaca 65B 进行对比,实验结果表明 LIMA 在人类测试和 GPT-4 测试上超过50%的情况下不弱于BARD、Davinci003、Alpaca 65B,30%~50%的情况不弱于 Claude 和 GPT-4。

3.2Prompt Engineering

ToT 新范式提升 LLM 解决复杂问题的能力。Google DeepMind 和普林斯顿大学研究团队于2023 年5月提出 Tree-of-thoughts(ToT)10。LLM 在面对复杂问题时,运用 CoT 范式容易出现某一环节出现错误导致后续环节持续犯错的现象,ToT 则是借鉴人类思考的思维树范式,相比于 CoT,ToT 增加了对问题的分解和评估。研究团队通过 24 点游戏、创意写作、迷你纵横填字游戏比较 IO、CoT、CoT-SC、ToT 下模型表现,实验表明ToT在上述任务中表现均优于 IO、CoT、CoT-SC。总体来看,ToT 进一步模仿人类思考范式,并实现了模型分解问题,路径评估及决策等优化,最终实现解决问题能力提升,这一范式可能在下游行业应用中逐步推广开来。

引入工具实现问题解决能力提升,同时兼顾效率优化。Google DeepMind、普林斯顿大学和斯坦福大学研究团队于 2023 年 5 月提出 LATM(LLMs As Tool Maker),主要包括 1)工具制作;2)工具使用,每个阶段都利用不同类型的大语言模型(LLM)来平衡性能和成本效率,其中工具制作阶段采用GPT-4 等性能更强但成本更高的模型,工具使用阶段采用 GPT-3.5 turbo 等成本更低且推理速度更快的模型。

3.3RLHF:OpenAI再度引入人工标注建模过程RM,实现问题解决能力提升

引入过程监督 RM 提升面向复杂问题的解决能力。2023 年 5 月 OpenAI 团队提出《Let’s Verify Step byStep》,主要解决 CoT 下过程缺乏监督导致结果准确率不高的问题。因此,其在每一个步骤中引入RM,即过程监督RM模型,并预测每个步骤之后的 token,最大化目标 token 的对数似然,实验表明性能提升明显。

4.推理:并行度提升与计算复杂度降低推动推理效率提升

CMU Catalyst Group 于 2023 年 5 月提出 SpecInfer 推理引擎,较传统推理效率提升2.8x。LLM推理的主流范式仍然是自回归式(auto-regressive)的解码(decoding),每一次解码只产生下一个输出token,而且需要将历史输出内容拼接后重新作为 LLM 的输入。这种推理范式存在 1)并行计算利用率低;2)显存占用大等问题。CMU 研究团队的解决思路是引入计算代价更小的 SSM(Small Speculative Model)替代LLM进行投机式推理,并且一次进行多步推理,再由 LLM 进行验证,整体来看通过提升计算并行度实现推理效率提升。

SpecInfer 推理引擎具体包括可学习推测器(Learning-based Speculator)与输出验证器(Token Tree Verifier)。Speculator 主要是利用 SSM 快速推理,并尽可能靠近 LLM 的生成结果。因此 SSM 一般选用LLM的轻量级,例如 LLaMA 7B 或者蒸馏后的 GPT-4。在 Speculator 方面,不同序列的预测难度有所差异,因此采取固定Speculator 可能导致性能并非最优。研究团队采取 Collective Boost-Tuning 方法,即同时采取多个Speculator,避免单一 Speculator 可能存在的“偏科”情况,同时引入可学习的调度器(a learning-based speculative scheduler)决定不同场景选用特定 SSM 以匹配序列长度。Collective Boost-Tuning 即在一个公开数据集上,从较弱的 SSM 开始进行微调,将匹配程度较低的序列过滤筛选出去,交由较强的 SSM 来微调,从而提高推理准确度。

华盛顿大学和苏黎世联邦理工(ETH Zurich)等机构的研究团队于 2023 年 6 月提出SpQR(推理端的混合精度技术)。过往的研究11表明,混合精度推理的难点主要在于 Transformer 架构模型的生成是序列式的,即后一个 token 输出是以此前 token 作为输入的,因此序列生成过程中的错误会逐步累加,低精度推理在长序列生成过程的错误会逐步放大,乃至于明显影响效果。面对这一问题,解决思路主要有两种,1)调整transformer 架构的序列生成模式,阻断模型生成错误累积传递;

2)降低错误率,把错误率控制在整体可接收的范围。SpQR主要采取第二种思路。 研究团队的思路 1)首先是基于已有研究12,大模型的参数之间并非随机分布,而是存在特定结构的;2)研究团队对量化过程进行两个改变:一个用于捕捉小的敏感权重组,另一个用于捕捉单个的异常值。通过对敏感权重和异常值保留高精度,而其他参数降低精度,模型输出性能损失较原模型在可控范围,且推理的成本和效率大幅优化。

5.行业应用:游戏NPC智能化提升,text-to-3D模型有所突破

2023 年 5 月,英伟达、Caltech、UT Austin、Stanford、ASU 等研究团队提出 VOYAGER 游戏智能,实现1)最大化探索的自动课程学习(本质上将游戏信号转化为文本输入 GPT-4);2)一个不断增长的可执行代码技能库,用于存储和检索复杂的行为(将 GPT-4 反馈转化为可执行的代码);3)一个新的迭代提示(prompt)机制,它结合了环境反馈、执行错误,和程序改进的自我验证(考虑 GPT-4 回复与游戏现实的差异增加纠错机制)。VOYAGER 通过黑箱与 GPT-4 交互,即不需要参数微调(Parameter fine-tuning),Voyager 开发的技能在时间上是可扩展的、可解释的和组合的,这可以迅速提升智能 AI 的能力并减轻灾难性遗忘。

此前的研究往往通过强化学习(RL)以及模仿学习(imitation learning),但在开放性环境下的泛化能力较弱,且可解释性不足,本质上还是基于固定规则做出反应,缺乏对行为的理解。现有研究基于LLM在游戏智能方面做出突破,但缺乏持续学习的能力。VOYAGER 解决遗忘问题的方式是引入存储与检索,即生成技能时通过简写标记,后续遇到类似情况时搜索技能库调用,一定程度上缓解遗忘问题。

另一方面,在错误纠偏/自我验证环节,VOYAGER 通过在 promtp 中要求 GPT-4 扮演评论者(critic),判断程序是否能够正确实现目标,如果无法实现,则提出进一步改进意见,这一过程迭代多次直至目标达成。此外,在代码生成环节,由于 GPT-4 生成的代码可能存在一定错误,代码生成也需要迭代多次,并将此前的错误合并入 prompt 输入 GPT-4,要求 GPT-4 予以改进。为防止持续错误,研究团队设置迭代次数阈值(4 次),即超过 4 次仍为成功则调整其他目标,避免陷入停滞的问题。

总体而言,1)自动课程学习对于 VOYAGER 的探索能力(相比于随机学习)有明显提升,这主要是由于部分任务存在前置要求,即完成 A 任务的前提是完成 B 任务,因而学习顺序至关重要。另外,预置规则的方式(manually curriculum)则未考虑当前 AI 的状态,且不具备纠错能力;2)技能库能够发挥一定作用,主要是VOYAGER 能够基于此前的技能组合创造更多复杂的动作,从而拓展 VOYAGER 的能力范围;3)自我验证机制对探索能力提升最明显,否则 VOYAGER 可能陷入错误循环中无法完成任务;4)GPT-4 替代GPT-3.5的效果提升主要是代码生成能力的差异,代码错误率低能够提升整体性能。

5 月 29 日,英伟达宣布推出适用于游戏的 NVIDIA Avatar Cloud Engine(ACE)13,这是一种定制的AI 模型代工服务,可通过 AI 驱动的自然语言交互为 NPC 带来智能。除英伟达外,清华大学与商汤研究团队于 2023 年 5 月提出 GITM14,相比于 RL 为基础的方法,引入了LLM,并分别利用 LLM 进行目标分解,行为规划,环境交互。其中,目标分解过程中 LLM Decomposer 主要利用公开互联网的一些文本知识(例如游戏攻略)对目标进行分解;在行为规划环节,基于目标和环境反馈,LLM会对行为进行相应地规划,并形成文本知识库;在交互环节,主要是通过预置一些行为编码,通过action 激活具体的行为,实现对游戏智能的控制。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

标签: