多模态模型评估框架lmmseval发布！全面覆盖、成本低、零污染

2024-10-16 02:42:53 | 作者: 匿名

随着大模型研究的深入，如何将其扩展到更多模态已成为学术界和工业界的热点话题。最近发布的GPT-4o、Claude 3.5等大型闭源模型已经具备了较强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL等开源领域模型也展现出了越来越接近闭源的性能。

在这个“一亩八万斤”、“十天一SoTA”的时代，易用、标准透明、可重复的多模态评估框架变得越来越重要，而这并不容易。

为了解决上述问题，南洋理工大学LMMs-Lab的研究人员联合开源了LMMs-Eval，这是一个专门为多模态大规模模型设计的评估框架，为多模态模型的评估提供了一种方法（LMM）。一站式、高效的解决方案。

代码仓库： https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页： https://lmms-lab.github.io/论文地址： https://arxiv.org/abs/2407.12772 列表地址：https://huggingface.co/spaces/lmms-lab/LiveBench LMMs-Eval 框架于2024 年3 月发布，得到了包括开源社区、公司和大学在内的多方的协作贡献。目前它在Github 上已经获得了1.1K Stars，贡献者超过30+，总共包括80 多个数据集和10 多个模型，并且还在持续增加。

标准化评估框架

为了提供标准化的评估平台，LMMs-Eval 包括以下功能：

统一接口： LMMs-Eval基于文本评估框架lm-evaluation-harness进行改进和扩展。通过定义模型、数据集和评价指标的统一接口，方便用户添加新的多模态模型和数据集。透明且可重复：LMMs-Eval 具有内置的统一日志记录工具。模型回答的每个问题及其正确与否都会被记录下来，确保可重复性和透明度。它还有助于比较不同模型的优缺点。 LMMs-Eval 的愿景是未来的多模态模型不再需要编写自己的数据处理、推理和提交代码。在当今多模态测试集高度集中的环境下，这种方法是不现实的，并且测得的分数很难与其他模型直接进行比较。通过访问LMMs-Eval，模型训练者可以更加专注于改进和优化模型本身，而不是将时间花在评估和对齐结果上。

评价的“不可能三角”

多模态模型评估框架lmmseval发布！全面覆盖、成本低、零污染

如下图所示，当他们将评估数据集扩展到超过50个时，对这些数据集进行综合评估变得非常耗时。此外，这些基准在训练期间也容易受到污染。为此，LMMs-Eval提出了LMMs-Eval-Lite，兼顾广覆盖和低成本。他们还设计了低成本且零数据泄漏的LiveBench。

LMMs-Eval-Lite: 广覆盖轻量化评估

在评估大型模型时，大量的参数和测试任务往往会急剧增加评估任务的时间和成本。因此，人们常常选择使用较小的数据集或者使用特定的数据集进行评估。然而，有限的评估往往会导致缺乏对模型功能的理解。为了兼顾评估的多样性和评估的成本，LMMs-Eval推出了LMMs-Eval-Lite

LMMs-Eval-Lite 旨在构建一个简化的基准测试集，以便在模型开发过程中提供有用且快速的信号，从而避免当今测试的膨胀问题。如果我们可以找到现有测试集的一个子集，其中模型之间的绝对分数和相对排名与完整集保持相似，那么我们可以认为修剪这些数据集是安全的。

为了找到数据集中的数据显着点，LMMs-Eval首先使用CLIP和BGE模型将多模态评估数据集转换为向量嵌入的形式，并使用k-贪婪聚类方法来寻找数据显着点点。在测试中，这些较小的数据集仍然表现出与完整数据集相似的评估能力。

随后，LMMs-Eval 使用相同的方法生成了涵盖更多数据集的Lite 版本。这些数据集旨在帮助人们在开发过程中节省评估成本，以快速判断模型性能。

LiveBench: LMM动态测试

传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展，开源模型在分数对比上往往优于商业模型，如GPT-4V，但在实际用户体验上却落后了。动态、用户导向的聊天机器人Arenas 和WildVision 在模型评估中越来越受欢迎，但它们需要收集数千个用户偏好，并且评估成本极其昂贵。

用户评论

暮染轻纱

哇，这个多模态模型评估框架听起来真的挺先进的！全面覆盖的意思是它对各种模态都有效吗？期待看到实际应用效果。

有9位网友表示赞同！

放血

成本低、零污染，这俩点太吸引人了。我们公司正需要这样的评估工具，希望真的能如标题所说那么强大。

有8位网友表示赞同！

不相忘

全面覆盖真的好吗？有时候专一的工具不更好用吗？而且成本低不意味着功能弱，希望不要失望。

有6位网友表示赞同！

葵雨

零污染太棒了，环保又高效。不过，这框架真的能处理多种模态的数据吗？期待能看个详细介绍。

有19位网友表示赞同！

爱到伤肺i

看到这个标题，我觉得这个框架应该是我一直寻找的那个宝贝！全面覆盖、成本低、零污染，听起来完美。

有6位网友表示赞同！

人心叵测i

这个框架发布真是及时，我们团队正好在找这样的评估工具。全面覆盖和成本低，这正是我们需要的。

有17位网友表示赞同！

发型不乱一切好办

全面覆盖和成本低，听起来不错，但零污染这个点让我有点好奇，这框架是如何做到的？

有9位网友表示赞同！

滴在键盘上的泪

标题里说的零污染，是指对环境没有污染吗？如果是的话，那真的是个环保的好工具。

有17位网友表示赞同！

■孤独像过不去的桥≈

全面覆盖和成本低，这是我比较关心的两点。不过，零污染这个点有点抽象，不清楚具体指的是什么。

有17位网友表示赞同！

仰望幸福

这框架一出，感觉我们的模型评估工作要轻松多了。全面覆盖，太期待了！

有12位网友表示赞同！

熟悉看不清

成本和污染，这两个词让我印象深刻。希望这个框架真的能解决我们的问题。

有20位网友表示赞同！

全网暗恋者

多模态模型评估框架，听起来就很高大上。全面覆盖和零污染，这可是我们梦寐以求的。

有8位网友表示赞同！

半世晨晓。

这个框架发布得太及时了，我们项目正好需要这样的工具。全面覆盖，这正是我们需要的。

有9位网友表示赞同！

笑叹★尘世美

成本和污染，这两个关键词让我印象深刻。希望这个框架能真正实现它的承诺。

有19位网友表示赞同！

寒山远黛

全面覆盖和成本低，这两个点让我对这个框架产生了浓厚的兴趣。零污染，期待看到具体实现。

有6位网友表示赞同！

娇眉恨

这个框架发布，感觉又打开了一扇新的大门。全面覆盖、成本低、零污染，真是完美。

有7位网友表示赞同！

伤离别

全面覆盖和成本低，这太符合我们团队的需求了。零污染，希望这是真的。

有15位网友表示赞同！

漫长の人生

看到这个框架，我立刻想到了我们团队的项目。全面覆盖和零污染，这正是我们需要的。

有10位网友表示赞同！

此刻不是了i

这个框架的发布，让我对多模态模型评估有了新的认识。全面覆盖、成本低，听起来很有潜力。

有12位网友表示赞同！

体育足球

多模态模型评估框架lmmseval发布！全面覆盖、成本低、零污染

用户评论

相关视频