你的位置：调教学生妹 > 英雄联盟av > 黄色片多模态LLM视觉推理才智堪忧，浙大领衔用GPT-4合成数据构建多模态基准

黄色片多模态LLM视觉推理才智堪忧，浙大领衔用GPT-4合成数据构建多模态基准

发布日期：2024-08-09 01:41 点击次数：126

新智元报说念黄色片

裁剪：乔杨

【新智元导读】LLM的数学推理才智劣势赢得了许多询查的存眷，但最近浙大、中科院等机构的学者们建议，先进模子在视觉推理方面通常不及。为此他们建议了一种多模态的视觉推理基准，并缠绵了一种新颖的数据合成步调。

不管是讲话模子照旧视觉模子，似乎都很难完成更综合档次上的清晰和推理任务。

讲话模子仍是不错写诗写演义了，可是依旧算不合9.11和9.9比大小的问题。

通常的问题也出当今视觉模子中，它们能无缺清晰当然振奋或东说念主物相片，却无法处分各式图表任务，以至看表读技艺都是贫寒。

如若要将AI系统用在更多专科边界，这些才智劣势就显得极为凸起。

最近，浙江大学、中科院软件询查所、上海科技大学等机构就皆集建议了一种新的多模态基准，挑升考虑模子对综合图像的清晰才智和视觉推理才智。

论文地址：https://arxiv.org/pdf/2407.07053

数据集共包含11,193个带有经营问题的综合图像，涵盖了姿色板、阶梯图、图表、表格、进程图、关系图、视觉谜题和2D平面图等8大类别，此外还有很是的62,476条数据用于微调模子。

经过测试黄色片，东说念主类在该基准上不错达到至少82.1%的准确率，但Claude 3.5 Sonnet和GPT-4o等顶流模子的收成却远远过期于东说念主类，隔离唯有64.7%和59.9%。

英雄联盟av
黄色片多模态LLM视觉推理才智堪忧，浙大领衔用GPT-4合成数据构建多模态基准