多模态模型评估框架lmmseval发布!全面覆盖、成本低、零污染

2024-10-16 02:42:53 | 作者: 匿名

随着大模型研究的深入,如何将其扩展到更多模态已成为学术界和工业界的热点话题。最近发布的GPT-4o、Claude 3.5等大型闭源模型已经具备了较强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL等开源领域模型也展现出了越来越接近闭源的性能。

在这个“一亩八万斤”、“十天一SoTA”的时代,易用、标准透明、可重复的多模态评估框架变得越来越重要,而这并不容易。

为了解决上述问题,南洋理工大学LMMs-Lab的研究人员联合开源了LMMs-Eval,这是一个专门为多模态大规模模型设计的评估框架,为多模态模型的评估提供了一种方法(LMM)。一站式、高效的解决方案。

代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/论文地址: https://arxiv.org/abs/2407.12772 列表地址:https://huggingface.co/spaces/lmms-lab/LiveBench LMMs-Eval 框架于2024 年3 月发布,得到了包括开源社区、公司和大学在内的多方的协作贡献。目前它在Github 上已经获得了1.1K Stars,贡献者超过30+,总共包括80 多个数据集和10 多个模型,并且还在持续增加。

标准化评估框架

为了提供标准化的评估平台,LMMs-Eval 包括以下功能:

统一接口: LMMs-Eval基于文本评估框架lm-evaluation-harness进行改进和扩展。通过定义模型、数据集和评价指标的统一接口,方便用户添加新的多模态模型和数据集。透明且可重复:LMMs-Eval 具有内置的统一日志记录工具。模型回答的每个问题及其正确与否都会被记录下来,确保可重复性和透明度。它还有助于比较不同模型的优缺点。 LMMs-Eval 的愿景是未来的多模态模型不再需要编写自己的数据处理、推理和提交代码。在当今多模态测试集高度集中的环境下,这种方法是不现实的,并且测得的分数很难与其他模型直接进行比较。通过访问LMMs-Eval,模型训练者可以更加专注于改进和优化模型本身,而不是将时间花在评估和对齐结果上。

评价的“不可能三角”

多模态模型评估框架lmmseval发布!全面覆盖、成本低、零污染

如下图所示,当他们将评估数据集扩展到超过50个时,对这些数据集进行综合评估变得非常耗时。此外,这些基准在训练期间也容易受到污染。为此,LMMs-Eval提出了LMMs-Eval-Lite,兼顾广覆盖和低成本。他们还设计了低成本且零数据泄漏的LiveBench。

LMMs-Eval-Lite: 广覆盖轻量化评估

在评估大型模型时,大量的参数和测试任务往往会急剧增加评估任务的时间和成本。因此,人们常常选择使用较小的数据集或者使用特定的数据集进行评估。然而,有限的评估往往会导致缺乏对模型功能的理解。为了兼顾评估的多样性和评估的成本,LMMs-Eval推出了LMMs-Eval-Lite

LMMs-Eval-Lite 旨在构建一个简化的基准测试集,以便在模型开发过程中提供有用且快速的信号,从而避免当今测试的膨胀问题。如果我们可以找到现有测试集的一个子集,其中模型之间的绝对分数和相对排名与完整集保持相似,那么我们可以认为修剪这些数据集是安全的。

为了找到数据集中的数据显着点,LMMs-Eval首先使用CLIP和BGE模型将多模态评估数据集转换为向量嵌入的形式,并使用k-贪婪聚类方法来寻找数据显着点点。在测试中,这些较小的数据集仍然表现出与完整数据集相似的评估能力。

随后,LMMs-Eval 使用相同的方法生成了涵盖更多数据集的Lite 版本。这些数据集旨在帮助人们在开发过程中节省评估成本,以快速判断模型性能。

LiveBench: LMM动态测试

传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展,开源模型在分数对比上往往优于商业模型,如GPT-4V,但在实际用户体验上却落后了。动态、用户导向的聊天机器人Arenas 和WildVision 在模型评估中越来越受欢迎,但它们需要收集数千个用户偏好,并且评估成本极其昂贵。

用户评论

暮染轻纱

哇,这个多模态模型评估框架听起来真的挺先进的!全面覆盖的意思是它对各种模态都有效吗?期待看到实际应用效果。

    有9位网友表示赞同!

放血

成本低、零污染,这俩点太吸引人了。我们公司正需要这样的评估工具,希望真的能如标题所说那么强大。

    有8位网友表示赞同!

不相忘

全面覆盖真的好吗?有时候专一的工具不更好用吗?而且成本低不意味着功能弱,希望不要失望。

    有6位网友表示赞同!

葵雨

零污染太棒了,环保又高效。不过,这框架真的能处理多种模态的数据吗?期待能看个详细介绍。

    有19位网友表示赞同!

爱到伤肺i

看到这个标题,我觉得这个框架应该是我一直寻找的那个宝贝!全面覆盖、成本低、零污染,听起来完美。

    有6位网友表示赞同!

人心叵测i

这个框架发布真是及时,我们团队正好在找这样的评估工具。全面覆盖和成本低,这正是我们需要的。

    有17位网友表示赞同!

发型不乱一切好办

全面覆盖和成本低,听起来不错,但零污染这个点让我有点好奇,这框架是如何做到的?

    有9位网友表示赞同!

滴在键盘上的泪

标题里说的零污染,是指对环境没有污染吗?如果是的话,那真的是个环保的好工具。

    有17位网友表示赞同!

■孤独像过不去的桥≈

全面覆盖和成本低,这是我比较关心的两点。不过,零污染这个点有点抽象,不清楚具体指的是什么。

    有17位网友表示赞同!

仰望幸福

这框架一出,感觉我们的模型评估工作要轻松多了。全面覆盖,太期待了!

    有12位网友表示赞同!

熟悉看不清

成本和污染,这两个词让我印象深刻。希望这个框架真的能解决我们的问题。

    有20位网友表示赞同!

全网暗恋者

多模态模型评估框架,听起来就很高大上。全面覆盖和零污染,这可是我们梦寐以求的。

    有8位网友表示赞同!

半世晨晓。

这个框架发布得太及时了,我们项目正好需要这样的工具。全面覆盖,这正是我们需要的。

    有9位网友表示赞同!

笑叹★尘世美

成本和污染,这两个关键词让我印象深刻。希望这个框架能真正实现它的承诺。

    有19位网友表示赞同!

寒山远黛

全面覆盖和成本低,这两个点让我对这个框架产生了浓厚的兴趣。零污染,期待看到具体实现。

    有6位网友表示赞同!

娇眉恨

这个框架发布,感觉又打开了一扇新的大门。全面覆盖、成本低、零污染,真是完美。

    有7位网友表示赞同!

伤离别

全面覆盖和成本低,这太符合我们团队的需求了。零污染,希望这是真的。

    有15位网友表示赞同!

漫长の人生

看到这个框架,我立刻想到了我们团队的项目。全面覆盖和零污染,这正是我们需要的。

    有10位网友表示赞同!

此刻不是了i

这个框架的发布,让我对多模态模型评估有了新的认识。全面覆盖、成本低,听起来很有潜力。

    有12位网友表示赞同!