多模态模型评估框架lmmseval发布!全面覆盖、成本低、零污染
2024-10-16 02:42:53 | 作者: 匿名
随着大模型研究的深入,如何将其扩展到更多模态已成为学术界和工业界的热点话题。最近发布的GPT-4o、Claude 3.5等大型闭源模型已经具备了较强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL等开源领域模型也展现出了越来越接近闭源的性能。
在这个“一亩八万斤”、“十天一SoTA”的时代,易用、标准透明、可重复的多模态评估框架变得越来越重要,而这并不容易。
为了解决上述问题,南洋理工大学LMMs-Lab的研究人员联合开源了LMMs-Eval,这是一个专门为多模态大规模模型设计的评估框架,为多模态模型的评估提供了一种方法(LMM)。一站式、高效的解决方案。
代码仓库: https://github.com/EvolvingLMMs-Lab/lmms-eval 官方主页: https://lmms-lab.github.io/论文地址: https://arxiv.org/abs/2407.12772 列表地址:https://huggingface.co/spaces/lmms-lab/LiveBench LMMs-Eval 框架于2024 年3 月发布,得到了包括开源社区、公司和大学在内的多方的协作贡献。目前它在Github 上已经获得了1.1K Stars,贡献者超过30+,总共包括80 多个数据集和10 多个模型,并且还在持续增加。
标准化评估框架
为了提供标准化的评估平台,LMMs-Eval 包括以下功能:
统一接口: LMMs-Eval基于文本评估框架lm-evaluation-harness进行改进和扩展。通过定义模型、数据集和评价指标的统一接口,方便用户添加新的多模态模型和数据集。透明且可重复:LMMs-Eval 具有内置的统一日志记录工具。模型回答的每个问题及其正确与否都会被记录下来,确保可重复性和透明度。它还有助于比较不同模型的优缺点。 LMMs-Eval 的愿景是未来的多模态模型不再需要编写自己的数据处理、推理和提交代码。在当今多模态测试集高度集中的环境下,这种方法是不现实的,并且测得的分数很难与其他模型直接进行比较。通过访问LMMs-Eval,模型训练者可以更加专注于改进和优化模型本身,而不是将时间花在评估和对齐结果上。
评价的“不可能三角”
如下图所示,当他们将评估数据集扩展到超过50个时,对这些数据集进行综合评估变得非常耗时。此外,这些基准在训练期间也容易受到污染。为此,LMMs-Eval提出了LMMs-Eval-Lite,兼顾广覆盖和低成本。他们还设计了低成本且零数据泄漏的LiveBench。
LMMs-Eval-Lite: 广覆盖轻量化评估
在评估大型模型时,大量的参数和测试任务往往会急剧增加评估任务的时间和成本。因此,人们常常选择使用较小的数据集或者使用特定的数据集进行评估。然而,有限的评估往往会导致缺乏对模型功能的理解。为了兼顾评估的多样性和评估的成本,LMMs-Eval推出了LMMs-Eval-Lite
LMMs-Eval-Lite 旨在构建一个简化的基准测试集,以便在模型开发过程中提供有用且快速的信号,从而避免当今测试的膨胀问题。如果我们可以找到现有测试集的一个子集,其中模型之间的绝对分数和相对排名与完整集保持相似,那么我们可以认为修剪这些数据集是安全的。
为了找到数据集中的数据显着点,LMMs-Eval首先使用CLIP和BGE模型将多模态评估数据集转换为向量嵌入的形式,并使用k-贪婪聚类方法来寻找数据显着点点。在测试中,这些较小的数据集仍然表现出与完整数据集相似的评估能力。
随后,LMMs-Eval 使用相同的方法生成了涵盖更多数据集的Lite 版本。这些数据集旨在帮助人们在开发过程中节省评估成本,以快速判断模型性能。
LiveBench: LMM动态测试
传统基准侧重于使用固定问题和答案的静态评估。随着多模态研究的进展,开源模型在分数对比上往往优于商业模型,如GPT-4V,但在实际用户体验上却落后了。动态、用户导向的聊天机器人Arenas 和WildVision 在模型评估中越来越受欢迎,但它们需要收集数千个用户偏好,并且评估成本极其昂贵。
相关视频
-
室外篮球哪个牌子好耐打(篮球爱好者必备的室外球品牌推荐)(室外篮球哪个牌子好用)
2023-09-07
-
NA2012季后赛热火对凯尔特人(2012热火vs凯尔特人揭幕战)
2023-09-07
-
世预赛积分榜2021(世预赛积分榜亚洲出现要求)
2023-09-07
-
坎特雷拉公主攻略(坎特雷拉故事)
2023-09-07
-
谢尔盖米林科维奇萨维奇
2023-09-07
-
最新黎巴嫩球联赛排名及球队析(黎巴嫩篮球联赛比分)
2023-09-07
-
郎平的事迹介绍及其他名人的成功经历(郎平的名人故事)
2023-09-07
用户评论
哇,这个多模态模型评估框架听起来真的挺先进的!全面覆盖的意思是它对各种模态都有效吗?期待看到实际应用效果。
有9位网友表示赞同!
成本低、零污染,这俩点太吸引人了。我们公司正需要这样的评估工具,希望真的能如标题所说那么强大。
有8位网友表示赞同!
全面覆盖真的好吗?有时候专一的工具不更好用吗?而且成本低不意味着功能弱,希望不要失望。
有6位网友表示赞同!
零污染太棒了,环保又高效。不过,这框架真的能处理多种模态的数据吗?期待能看个详细介绍。
有19位网友表示赞同!
看到这个标题,我觉得这个框架应该是我一直寻找的那个宝贝!全面覆盖、成本低、零污染,听起来完美。
有6位网友表示赞同!
这个框架发布真是及时,我们团队正好在找这样的评估工具。全面覆盖和成本低,这正是我们需要的。
有17位网友表示赞同!
全面覆盖和成本低,听起来不错,但零污染这个点让我有点好奇,这框架是如何做到的?
有9位网友表示赞同!
标题里说的零污染,是指对环境没有污染吗?如果是的话,那真的是个环保的好工具。
有17位网友表示赞同!
全面覆盖和成本低,这是我比较关心的两点。不过,零污染这个点有点抽象,不清楚具体指的是什么。
有17位网友表示赞同!
这框架一出,感觉我们的模型评估工作要轻松多了。全面覆盖,太期待了!
有12位网友表示赞同!
成本和污染,这两个词让我印象深刻。希望这个框架真的能解决我们的问题。
有20位网友表示赞同!
多模态模型评估框架,听起来就很高大上。全面覆盖和零污染,这可是我们梦寐以求的。
有8位网友表示赞同!
这个框架发布得太及时了,我们项目正好需要这样的工具。全面覆盖,这正是我们需要的。
有9位网友表示赞同!
成本和污染,这两个关键词让我印象深刻。希望这个框架能真正实现它的承诺。
有19位网友表示赞同!
全面覆盖和成本低,这两个点让我对这个框架产生了浓厚的兴趣。零污染,期待看到具体实现。
有6位网友表示赞同!
这个框架发布,感觉又打开了一扇新的大门。全面覆盖、成本低、零污染,真是完美。
有7位网友表示赞同!
全面覆盖和成本低,这太符合我们团队的需求了。零污染,希望这是真的。
有15位网友表示赞同!
看到这个框架,我立刻想到了我们团队的项目。全面覆盖和零污染,这正是我们需要的。
有10位网友表示赞同!
这个框架的发布,让我对多模态模型评估有了新的认识。全面覆盖、成本低,听起来很有潜力。
有12位网友表示赞同!