• 首页
  • 哥要搞蝴蝶谷
  • 樱井莉亚快播
  • 情欲印象写真
  • 2222fn
  • www.26uuu
  • av百科
  • 哥要搞蝴蝶谷

    你的位置:麻豆人妖 > 哥要搞蝴蝶谷 >

    洋萝莉系 GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板

    发布日期:2025-04-06 06:51    点击次数:189

    洋萝莉系 GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板

    近来风头正盛的 GPT-4.5洋萝莉系,不仅在日常问答中展现出惊东谈主的迤逦文连贯性,在想象、盘问等需要高度创造力的任务中也大放异彩。

    当 GPT-4.5 在创意写稿、训导盘问、想象提案等任务中展现出惊东谈主的连贯性与创造力时,一个重要问题浮出水面:

    多模态大模子(MLLMs)的"创造力天花板"究竟在那边?

    写一篇基于图片的短篇演义、分析一张复杂的素质课件、致使想象一份用户界面……

    这些关于东谈主类得心应手的任务,关于现存的部分多模态大模子却不时是"高难动作"。

    但现存的评测基准最初难以有计划多模态大模子的输出是否具有创造性的看法,同期部分情境过于神圣,难以确切反应模子在复杂场景下的创造性念念维。

    怎么科学量化"多模态创造力" ?

    为此,浙江大学救济上海东谈主工智能实验室等团队重磅发布Creation-MMBench——

    众人首个面向确切场景的多模态创造力评测基准,笼罩四大任务类别、51 项细粒度任务,用 765 个高难度测试案例,为 MLLMs 的"视觉创意智能"提供全主义体检。

    为何咱们要存眷"视觉创造智能"?

    在东谈主工智能的"材干三元论"中,创造性智能(Creative Intelligence)恒久是最难评估和攻克的一环,主要波及的是在不同布景下生成新颖和妥当科罚决策的材干。

    现存的 MLLM 评测基准,如 MMBench、MMMU 等,不时更偏重分析性或实用性任务,却忽略了多模态 AI 在确切活命中常见的"创意类任务"。

    天然存在部分多模态基准纳入了对模子创意力的考试,但他们范畴较小,多为单图,且情境神圣,浅显的模子即可松驰回答出对应问题。

    相较而言,Creation-MMBench 开荒的情境复杂,内容万般,且单图 / 多图问题交错,能更好的对多模态大模子创意力进行考试。

    举个例子

    让模子饰演一位博物馆训导员,基于展品图像生成一段别有全国的训导词。

    让模子化身散文作者,围绕东谈主物像片撰写一篇表情趣和故事性兼备的散文。

    让模子切身上任四肢米其林大厨,给萌新小白解读菜肴像片并用一份玄虚入微的菜品引颈菜鸟初学。

    在这些任务中,模子需要同期具备"视觉内容聚集 + 情境顺应 + 创意性文本生成"的材干,这恰是现存基准难以评估的中枢材干。

    Creation-MMBench 有多硬核?1. 确切场景 × 多模态交融:从"止渴慕梅"到"实战演练"

    四大任务类型:Creation-MMBench 共有 51 个任务,主要可分为四个类别,折柳是

    文体创作:专注于文体畛域的创作活动,包括诗歌、对话、故事等风光的写稿。这一类别旨在评估模子在艺术性和创造性抒发方面的材干,举例生成富饶表情的笔墨、构建别有全国的叙事或塑造纯的确脚色形象。典型东谈主物包括故事续写、诗歌撰写等。

    日常功能性写稿:聚焦于日常活命中常见的功能性写稿任务,举例应酬媒体内容撰写、公益管事倡议等。这类任务强调实用性,考试模子在处理确切场景中常见写稿需求时的施展,举例撰写电子邮件、回答活命中的本色问题等。

    专科功能性写稿:存眷专科畛域内的功能性写稿和创造性问题科罚材干。具体任务包括室内想象、教案撰写、时局导游词创作等。这一类别条目模子具备较强的专科常识布景和逻辑推理材干,无意搪塞较为复杂且高度专科化的职责场景。

    多模态聚集与创作:贯注视觉聚集与创造力的贯串,波及文档融会、影相作品观赏等任务。此类别评估模子在处理多模态信息(如文本与图像贯串)时的施展,考试其是否无意从视觉内容中索要重要信息,并将其编削为特道理道理的创意输出。

    洋萝莉系

    千张跨域图像:在图像上,Creation-MMBench 横跨艺术作品、想象图纸、活命场景等近 30 个类别,波及千张不同图片。单任务最多赈济 9 图输入,传神规复确切创作环境。

    复杂履行情境:关于每一个实例,齐基于确切图像进行标注,配套明确脚色、特定布景、任务辅导与极端条目四部分共同构成问题。同期,相较于其他粗莽使用的多模态评测基准,Creation-MMBench 具有更全面和复杂的问题想象,大广博问题的长度卓绝 500 个词元,这有助于模子捕捉更丰富的创意迤逦文。

    2. 双重评估体系:拒却"主不雅臆断",量化创意质地

    在评估政策上,团队遴选了使用多模态大模子四肢评判模子,同期使用两个不同有谋略进行双重评估。

    视觉事实性评分(VFS):确保模子不是"瞎编"——必须读懂图像细节。

    关于部分实例,需要最初对模子对图像的基础聚集材干进行评估,以幸免胡乱创作骗得高分。团队对这类实例一一制定了视觉事实性圭臬,对图片重要细节进行严卡,按点打分。

    创意奖励分(Reward):不仅看懂图,更得写得好、写得巧!

    除了基础聚集材干外,Creation-MMBench 更贯注考试的是模子贯串视觉内容的创造性材干预表述材干。因为每个实例的脚色、布景、任务辅导与极端条目均存在不同,因此团队成员对每个实例制定了贴合的评判圭臬,从抒发通顺性、逻辑连贯性到创意新颖性等多方面进行评价。

    此外,为了确保评判的自制性和一致性,GPT-4o 四肢评判模子,会充分贯串评判圭臬、画面内容、模子修起等内容,在双向评判(即评估经由中对两个模子位置进行互换,幸免评估偏差)下给出模子修起与参考谜底(非圭臬谜底)的相对偏好。

    为了考证评判模子和给与的评判政策的可靠性,团队招募了志愿者对 13% 的样本进行东谈主工评估,着力如上图所示。相较于其他评判模子,GPT-4o 展现出了更强的东谈主类偏好一致性,同期也解释了双向评判的必要性。

    实验着力:开源 vs 闭源,谁才是创意王者?!

    团队基于 VLMEvalKit 器用链,对 20 多个主流 MLLMs 进行了全面评估,包括 GPT-4o、Gemini 系列、Claude 3.5,以及 Qwen2.5-VL、InternVL 等开源模子。

    举座而言,与 GPT-4o 比较,Gemini-2.0-Pro 展现出了更为出众的多模态创意性写稿材干,在部分任务如日常功能性写稿上能有用的整合图像生成贴合日常活命的内容。

    它庞大的先验常识也在专科功能性写稿上极大的匡助了它,但关于部分细粒度视觉内容聚集上,仍与 GPT-4o 存在不小的差距。

    令东谈主骇怪的是,主打创意写稿的 GPT-4.5 的举座施展却弱于 Gemini-pro 和 GPT-4o,但在多模态内容聚集及创作任务上展现出了较为出众的材干。

    开源模子如 Qwen2.5-VL-72B,InternVL2.5-78B-MPO 等也展现出了与闭源模子不错匹敌的创作材干,但举座而言仍与闭源模子存在一定差距。

    从类别上施展来看,专科功能性写稿由于对专科性常识的需求高、对视觉内容的聚集条目深因而对模子的问题难度较大,而日常功能性写稿由于逼近日常应酬活命,情境和视觉内容相对神圣,因而举座施展相对较弱的模子也能有细致的施展。尽管大广博模子在多模态聚集与创作这一任务类型上视觉事实性评分较高,但它们基于视觉内容的再创作仍然存在一定瓶颈。

    为了更好地比较模子的客不雅性能与其视觉创造力,团队使用 OpenCompass 多模态评测榜单的平中分 来默示举座客不雅性能。

    国产视频偷拍在线福利

    如上图所示,部分模子尽管在客不雅性能上施展强健,但在洞开式视觉创造力任务中却施展欠安。这些模子不时在有明确谜底的任务中施展出色,但在生成具有创造性和情境筹商的内容方面却显得不及。这种互异诠释传统的客不雅有谋略可能无法彻底捕捉模子在复杂履行场景中的创造材干,因而解释了 Creation-MMBench 填补这一畛域的蹙迫性。

    进一步探索:视觉微调是把双刃剑

    现时大语言模子的创作材干评判基准多聚合于特定主题(如生成科研 idea),相对较为单一且未能揭示 LLM 在多种不同日常场景中的创作材干。

    因此团队使用 GPT-4o 对图像内容进行玄虚形容,构建了纯文本的 Creation-MMBench-TO。

    从纯语言模子的评测着力来看,闭源 LLM 的创作材干略优于开源的 LLMs,令东谈主骇怪的是,GPT-4o 在 Creation-MMBench-TO 上的创意奖励分更高。这可能是因为该模子无意在形容的匡助下更专注于发散念念维和目田创作,从而减少基本视觉内容聚集对创造力的负面影响。

    同期为了进一步拜谒视觉辅导微调对 LLM 的影响,团队进行了对比实验,着力标明,经过视觉辅导微调的开源多模态大模子在 Creation-MMBench-TO 上的施展恒久低于相应的语言基座模子。

    这可能是由于微调经由中使用的问答对长度相对有限,适度了模子聚集较长文本中详备内容的材干,进而无法代入情境进行长文本创作,从而导致视觉事实性评分和创意奖励分均相对较低。

    团队雷同还对部分模子进行了定性研究,如上图所示。任务类型为软件工程图像解释,附属于专科功能性写稿。

    着力泄露,Qwen2.5-VL 由于对特定畛域常识聚集不及,将泳谈图误判为数据流图,从而导致后续的图表分析造作。

    比较之下,GPT-4o 有用幸免了这个造作,其举座语言愈加专科和结构化,展示了对图表更准确和详备的解释,从而取得了评审模子的爱重。

    这个例子也反应了特定学科常识和对图像内容的详备聚集在这一类任务中的蹙迫作用,施展出了开源模子和闭源模子间仍存在一定差距。

    追念:

    Creation-MMBench 是一个新颖的基准,旨在评估多模态大模子在履行场景中的创作材干。该基准包含 765 个实例,涵盖 51 个详备任务。

    关于每个实例,他们撰写了对应的评判圭臬,以评估模子修起的质地和视觉事实性。

    此外,团队通过用相应的文本形容替换图像输入,创建了一个仅文本版块 Creation-MMBench-TO。对这两个基准的实验全面的评估了主流多模态大模子的创作材干,并探查出了视觉辅导微调对模子的潜在负面影响。

    Creation-MMBench 现已集成至 VLMEvalKit,赈济一键评测,竣工评估你的模子在创意任务中的施展。想知谈你的模子能不可讲好一个图像里的故事?  来试试 Creation-MMBench 一键跑分,用数据言语。

    Paper:  https://arxiv.org/abs/2503.14478

    Github:  https://github.com/open-compass/Creation-MMBench

    HomePage:  https://open-compass.github.io/Creation-MMBench/

    一键三连「点赞」「转发」「小心心」

    宽宥在讨论区留住你的想法!

    —  完  —

    学术投稿请于职责日发邮件到:

    ai@qbitai.com

    标题注明【投稿】,告诉咱们:

    你是谁,从哪来,投稿内容‍

    附上论文 / 名目主页陆续,以及筹商面貌哦

    咱们会(尽量)实时修起你

    � � 点亮星标 � �

    科技前沿进展逐日见洋萝莉系