没有RLHF,它仍然可以与GPT4和Bard相媲美。 Meta发布650亿参数语言模型LIMA

2024-10-30 10:42:47 | 作者: 匿名

机器之心编辑部

无需RLHF,LIMA 与GPT-4、Bard 和DaVinci003 相当或更好。

作为当前人工智能领域的顶尖领军者,ChatGPT、GPT-4等大型模型在文本理解、生成和推理方面展现了强大的能力。这与生成领域的新训练范式——RLHF(Reinforcement Learning from Human Feedback)密不可分。 ),即通过强化学习根据人类反馈优化语言模型。

使用RLHF 方法,大型语言模型可以与人类偏好保持一致,遵循人类意图,并最大限度地减少无用、扭曲或有偏见的输出。然而,RLHF 方法依赖于大量的手动注释和评估,因此成本非常高。

近日,Meta AI等机构的研究人员在一项研究中指出:在对齐方面,少即是多。

论文地址:https://arxiv.org/abs/2305.11206

本研究使用65B 参数的LLaMa 模型(该模型称为LIMA)对1000 个选定样本进行监督学习。在完全不使用RLHF 方法的情况下,LIMA 表现出了非常强大的性能,并且能够很好地泛化到训练数据之外的任务。在人类评估结果中,LIMA甚至可以与GPT-4、Bard和DaVinci003相媲美。图灵奖获得者Yann LeCun 也转发了对该研究的赞扬。

接下来,我们来看看研究细节。

研究概况

首先,我们知道训练一个大型语言模型需要两个步骤:

对原始内容进行无监督预训练,以学习通用表示;

大规模指令微调和强化学习,以更好地调整最终任务和用户偏好。

没有RLHF,它仍然可以与GPT4和Bard相媲美。 Meta发布650亿参数语言模型LIMA

本研究训练了一个65B 参数的LLaMa 语言模型“LIMA”来衡量这两个步骤的重要性。 LIMA 仅使用1000 个选定提示和响应的标准监督损失进行微调,并且不涉及任何强化学习或人类偏好建模。

LIMA 能够从小训练数据样本中学习遵循特定的答案格式,包括从规划旅行行程到推断替代历史的复杂查询。此外,该模型可以很好地推广到训练数据之外的新任务。在人体对照试验中,LIMA 在43% 的病例中的疗效与GPT-4 相当或更好;相比巴德,这一比例可达58%;更不用说与采用人类反馈训练的DaVinci003相比,这个数字高达65%。

研究根据比较结果得出结论:大型语言模型中的几乎所有知识都是在预训练期间学习的,模型只需要部分必要的指令调优数据即可产生高质量的输出。这与RLHF方法不同,将有助于大型语言模型(LLM)降低训练成本。

数据对齐

研究人员提出了表面对齐假设:模型的知识和能力几乎完全是在预训练期间学习的,而对齐则教会它在与用户交互时如何选择子分布。如果对齐主要与学习风格有关的假设是正确的,那么该假设的推论就是人们可以用相对较少的样本充分调整预训练的语言模型。

社区问答

研究人员从三个社区问答网站收集了数据,即Stack Exchange、wikiHow 和Pushshift Reddit 数据集。 Stack Exchange 和wikiHow 的答案与AI 代理的行为一致,因此可以进行深度挖掘,而Reddit 上高票数的答案通常是幽默或恶意的,需要人性化的方法来管理答案并遵循适当的风格。

人类书写样本

培训利马

本研究使用LLaMa 65B [Touvron et al. 2023] 作为基础模型,并使用1000 个样本的对齐训练集进行微调。为了区分每个说话者(用户和助手),本研究在每个话语的末尾引入了一个特殊的回合结束令牌(EOT),它起到与停止生成的EOS 相同的作用,但避免了需要用于预训练。注入模型的EOS 代币会造成混乱。

该研究遵循标准微调超参数,包括:使用AdamW [Loshchilov and Hutter, 2017] 微调15 个epoch,_1=0.9,_2=0.95,权重衰减为0.1。如果没有预热步骤,该研究将初始学习率设置为,并在训练结束时衰减为。批量大小设置为32 个样本(较小模型为64 个样本),大于2048 个标记的文本将被修剪。值得注意的是,该方法与使用残差丢失的标准方法不同。本研究遵循欧阳等人的方法。 [2022]并对残差连接(residual connection)应用dropout,底层p_d=0.0,线性增长到最后一层p_d=0.3(对于较小的模型,p_d=0.2)。研究发现,困惑度与生成质量无关,因此使用保留的50 个样本开发集手动选择第5 和第10 epoch 之间的检查点。

人工评估

没有RLHF,它仍然可以与GPT4和Bard相媲美。 Meta发布650亿参数语言模型LIMA

研究对LIMA 与SOTA 语言模型进行了对比评估,结果表明LIMA 的性能优于OpenAI 基于RLHF 的DaVinci003 和Alpaca 65B 参数化副本,在52,000 个样本上训练,并且能够生成优于或等于GPT-4 的可比答案。我们来看看具体的实验结果。

结果

下图1展示了人类偏好评估结果,图2展示了GPT-4偏好评估结果。该研究的第一个观察结果是,尽管使用多52 倍的数据进行训练,Alpaca 65B 的输出结果往往不如LIMA,使用高级对齐方法RLHF 训练的DaVinci003 也是如此。

Google 的Bard 模型显示了与DaVinci003 相反的趋势,在42% 的情况下产生了比LIMA 更好的答案;而LIMA 的答案在58% 的情况下等于或优于Bard。

最后,虽然Claude 和GPT-4 通常比LIMA 表现更好,但在很多情况下LIMA 确实能产生更好的答案。值得注意的是,即使是GPT-4 在19% 的情况下也更喜欢LIMA 的输出。

分析

尽管研究人员主要针对SOTA 模型来评估LIMA,但值得注意的是,其中一些基线实际上是经过高度调优的产品,并且可能在训练过程中接触过数百万真实用户提示,从而创建了非常高的标准。因此,研究人员通过手动分析50 个随机样本来提供绝对评估。

他们将每个样本标记为以下三类之一:

失败,答案不符合提示要求;

通过,答案符合提示要求;

太棒了,该模型提供了一个很好的提示答案。

结果如图3 所示。LIMA 50% 的答案被认为是优秀的,并且它能够遵循所分析的50 个提示中除6 个之外的所有提示。研究人员没有观察到失败案例有任何明显的趋势。

没有RLHF,它仍然可以与GPT4和Bard相媲美。 Meta发布650亿参数语言模型LIMA

在50 个分析样本中,43 个具有标准格式要求(例如问题和答案、信件)。该研究分析了13 个额外的分布外样本(总共20 个),发现20% 的响应失败,35% 的响应通过,45% 的响应优秀。尽管样本量很小,但LIMA 在其训练分布之外取得了类似的性能结果,表明LIMA 具有良好的泛化能力。

最后,研究分析了训练集中少量与安全相关的样本(仅13 个),并使用了测试集中的30 个潜在敏感提示,发现LIMA 安全地回答了其中的80%(其中10 个带有恶意提示)。其中6 个)。在某些情况下,LIMA 拒绝完全执行任务,但当恶意意图模糊时,LIMA 更有可能提供不安全的答案。

为什么要“少一点多一点”?数据多样性、质量和数量减少

接下来,研究人员通过消融实验探索了训练数据的多样性、质量和数量的影响。他们观察到,出于调整的目的,扩大投入多样性和产出质量具有可衡量的积极影响,而仅仅扩大数量可能不会产生可衡量的积极影响。

质量。为了测试答案质量的影响,研究人员在没有任何质量或风格过滤的情况下从Stack Exchange 中采样了2000 个样本,并将在此数据集上训练的模型与在过滤后的数据集上训练的模型进行了比较。比较。如图5 所示,在过滤数据源和未过滤数据源上训练的模型之间存在0.5 个点的显着差异。

数量。增加实例数量是许多机器学习环境中提高性能的众所周知的策略。为了测试其对此设置的影响,研究人员从Stack Exchange 中提取了指数级更大的训练集。如图6 所示,将训练集大小加倍并没有提高答案质量。这一结果表明,对齐不一定仅受训练样本数量的限制,还受提示多样性函数的限制。

多轮对话

一个仅针对1000 次单轮交互进行微调的模型是否能够参与多轮对话?研究人员还在10 场现场对话中测试了LIMA,将每个回答标记为失败、通过或优秀。

对于零样本聊天机器人,LIMA 的响应表现出令人惊讶的一致性,能够参考对话中先前步骤的信息。但很明显,该模型是在发行版之外运行的;在10 次对话中,有6 次,LIMA 在3 次交互中未能遵循提示。

图7 显示了响应质量的分布。对话的加入显着提高了生成质量,优秀答案的比例从45.2%提高到76.1%。此外,失败率从每42 轮15 次失败(零样本)下降到每46 轮1 次失败(微调)。

用户评论

终究会走-

哇,650亿参数的LIMA模型,听起来真的很强大!虽然没有RLHF,但它的表现居然还能和GPT4和Bard匹敌,这真的很让人惊讶。

    有19位网友表示赞同!

素衣青丝

感觉Meta这次下了血本啊,650亿的参数量,这LIMA模型得有多大的计算能力才能跑起来啊!

    有18位网友表示赞同!

ゞ香草可樂ゞ草莓布丁

没有RLHF也能和GPT4、Bard比肩,看来技术实力真的很关键啊。不过,LIMA的实际应用效果怎么样呢?

    有18位网友表示赞同!

艺菲

650亿参数的LIMA,这名字听起来就很高级。不过,它真的能达到和GPT4、Bard一样的水平吗?有点不敢相信。

    有17位网友表示赞同!

灬一抹丶苍白

Meta发布LIMA,这可是个大新闻啊!虽然没RLHF,但能和GPT4、Bard相比,看来Meta的技术实力不容小觑。

    有8位网友表示赞同!

哭花了素颜

LIMA模型参数量那么大,居然没RLHF也能和GPT4、Bard抗衡,这让我对Meta的技术团队刮目相看。

    有11位网友表示赞同!

有些人,只适合好奇~

650亿参数的LIMA,听起来就很厉害。不过,和GPT4、Bard相比,它有哪些优势和不足呢?期待更多详细信息。

    有7位网友表示赞同!

减肥伤身#

没有RLHF的LIMA也能和GPT4、Bard比肩,看来Meta的技术创新能力真的很强。期待它在实际应用中的表现。

    有11位网友表示赞同!

刺心爱人i

这个LIMA模型,参数量那么大,不知道在实际应用中会有哪些突破性表现。期待它能带来更多惊喜。

    有14位网友表示赞同!

゛指尖的阳光丶

Meta发布LIMA,看来AI领域的竞争越来越激烈了。没有RLHF的模型都能这么厉害,RLHF加持的模型得有多强啊!

    有10位网友表示赞同!

眷恋

650亿参数的LIMA,这名字就很有科技感。不知道它在处理复杂任务时,能否展现出超越GPT4、Bard的能力。

    有6位网友表示赞同!

念初

Meta的LIMA模型,参数量那么大,居然没有RLHF也能和GPT4、Bard一较高下,这让我对AI的未来充满期待。

    有6位网友表示赞同!

凉凉凉”凉但是人心

看来LIMA模型在性能上确实很有潜力,但实际应用中的表现才是关键。希望Meta能在这一领域取得更多突破。

    有6位网友表示赞同!

如梦初醒

650亿参数的LIMA,这数字让人印象深刻。不过,GPT4、Bard的表现也一直很出色,LIMA要超越它们,恐怕还有很长的路要走。

    有14位网友表示赞同!

一样剩余

Meta发布LIMA,这是否意味着AI领域的竞争将会更加激烈?没有RLHF的模型都能达到这样的水平,RLHF加持的模型岂不是更可怕?

    有10位网友表示赞同!

虚伪了的真心

期待LIMA在实际应用中的表现。如果它能和GPT4、Bard相比肩,那么在AI领域的应用前景肯定非常广阔。

    有8位网友表示赞同!

肆忌

Meta的LIMA模型,参数量那么大,不知道在训练过程中消耗了多少资源。不过,它能和GPT4、Bard比肩,说明技术实力确实很强。

    有7位网友表示赞同!

代价是折磨╳

没有RLHF的LIMA都能和GPT4、Bard抗衡,看来Meta的技术团队真的很厉害。希望他们在AI领域继续创造更多奇迹。

    有7位网友表示赞同!

不浪漫罪名

650亿参数的LIMA,这名字就很有分量。不知道它在未来的AI应用中,能否引领新的技术潮流。

    有20位网友表示赞同!