UCLA发布SciBench,评估大语言模型的科学问题解决能力

news/2024/4/30 0:08:12/文章来源:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/132309704

ab8421ad8478e1c1b22622cc681f0cc8.gif

©PaperWeekly 原创 · 作者 | Xiaoxuan Wang

单位 | UCLA

研究方向 | 大语言模型评测

3fdbdb0d6ca3b0b38e9fdf9bd5b356ae.png

论文题目:

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models

论文链接:

https://arxiv.org/abs/2307.10635

代码链接:

https://github.com/mandyyyyii/scibench/

1ab676831a2bc980995d247fe9614226.png

研究背景

近年来,大语言模型(LLMs)的发展取得了显著进展,极大地扩展了人工智能的应用领域。由于这些模型在很多数学任务方面展现出出色的表现,大模型被认为具备了推理的能力。

然而,当前对 LLMs 在数学推理任务中表现优异的基准评估可能过于乐观,原因在于这些基准的局限性。许多现有基准问题  1)过于简单,在逻辑推理和运算上缺乏足够的复杂性  2)而且对于 LLMs 的推理能力深度评估不足。此外,3)一些基准问题的设计,例如多项选择题,容易让 LLMs 从备选选项中猜测答案,从而掩盖了它们在问题理解和推理过程中的实际能力。

af69362a1fa8c2dfc6d98292d79af122.png

新的数据集

a70fd4562f5e7ebd12de544b2b2c0cdf.png

为了更好的评估大模型解决科学问题的能力,我们引入了一个全新的数据集,名为 SCIBENCH。该数据集包含两个部分:教科书习题(开放集)和考试题目(封闭集)。教科书习题包含来自大学课程中常用教科书的 695 个问题,涵盖了多个学科,如物理学、化学、数学等。这些问题都是开放式的,需要多步推理和复杂的数学运算。考试题目包含了来自大学课程的 7 套期中和期末考试,在计算机和数学领域上。

我们的数据集以简答题的形式呈现,不会提供模型可能所需的任何与答案相关的信息。数据集还包含了一定量的带答案的题目,以供进一步分析。我们的数据集采用了复杂的运算方式,例如求导和微积分。

88a24ea32fab30e97cdb745583bef477.png

3e464cbbb5daf6c81d101c753cd3fe12.png

实验结果

5c66cbaedb5c0feec8ce58ca3eb246c7.png

d6dbd0f9bf11daf5e5697f4f13846bd8.png

我们对两种代表性大语言模型 GPT-3.5 和 GPT-4 进行了实验评估,并采用了多种提示(prompt)策略和外部工具来辅助解决问题。实验结果显示,在没有提示(prompt)或外部工具的情况下,LLMs 在教科书习题的数据集上的平均准确率仅为 10.62% 和 16.81%。在提示(prompt)策略与外部工具相结合的情况下,GPT-4 在教科书习题的数据集上的平均得分为 35.80%,在考试习题的数据集上为 51.57%。这些结果表明,未来 LLMs 在科学问题解决方面有很大的提升潜力。

f5e0b14a719f7981510ac8bbc0414108.png

自动分析

0ec0c634f549f8a2adc84a7907e14945.png

为了全面了解 LLMs 在解决科学问题中的局限性,我们提出了一种自动分析方法:首先,我们通过分析模型解答错误的问题,概括出了十项 LLMs 在解决问题上表现欠佳的关键技能:

  • 逻辑分解和分析技巧(Logical decomposition):这项能力涉及将问题分解为较小的、可管理的部分,并理解这些部分之间的关系。

  • 假设的识别(Identification of assumption):这项技能涉及识别问题中相关的和必要的假设的能力。

  • 空间感知(Special perception):这对理解如物理和化学等领域的问题非常重要,其中模型需要可视化分子、力、场等。

  • 因果推理(Causal reasoning):这是理解因果关系的能力。

  • 问题推理能力(Problem deduction):这指的是从问题中给定的信息推断和推导可能的解决方案或潜在原理的能力。

  • 抽象推理(Abstract reasoning):这项技能涉及理解无法通过物理感知的复杂概念的能力,以及在具体例子之外识别模式或关系的能力。

  • 科学知识掌握(Scientific literacy):这项技能需要全面理解各个学科的关键科学原理、专业术语以及研究方法。

  • 代码转换技巧(Code conversion):这涉及能够准确地将解决步骤转换为不同的编程语言,如 Python 或 Wolfram 语言的能力。

  • 逻辑推理(Logical reasoning):这是进行有理论论证和识别论点或数据集中的谬误或不一致的能力。

  • 计算技巧(Calculation):这涉及能够准确执行数学运算和计算的能力。

然后,通过将这十个关键技能的描述提供给新的 LLM,让其在每个题目上自动分类之前模型在解题中缺乏的技能。我们把这项分析作用到了六种实验情况下。通过分析这六种实验情况发现,任何现有的提示策略或者工具运用的方法都不能全面地提升大语言模型的技能,改善某一方面的技能可能导致原有的技能缺失。

80d15633fa4296fe116a73b608aae0eb.png

3df50e474899b7b815229951fe3e66e1.png

更多的例子

50d18d24b0a33a7045b630380109b4af.png

f89484b4fdacb46ec9be6c71b8782b32.png

1e95924b0c38d29c17d707aefd42c165.png

f7415d92a738d47d9e0b12f2d0d37e77.png

更多阅读

0044f59111d58150a9f17ede4dc4690e.png

dffb3a0156433e12412736c5493e007b.png

b810fc7c4890c4e037c2461c02a7b481.png

0e98bb707dd65b6597eee12bd05bb766.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

1b6e9e63753c7d24fb3779b3fc578ec7.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

e8f6295c316f4bd7cd39a8c9de3ff0d1.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_345628.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql 8.0.20不停机主从同步

一、环境 CentOS : 7.3.1611 (Core) mysql:8.0.20 二、遇到的问题 1.查看主从同步发现下列问题 error connecting to master repl192.168.0.21:3306 - retry-time: 60 retries: 4 message: Authentication plugin caching_sha2_password reported e…

springboot多模块打包方式

明确子父模块结构 父目录是带modules 大致结构如下&#xff1a; <modules><module>ruoyi-admin</module><module>ruoyi-framework</module><module>ruoyi-system</module><module>ruoyi-quartz</module><module>…

【C++从0到王者】第二十一站:继承

文章目录 前言一、继承的概念及定义1. 继承的概念2.继承的格式3.继承关系与访问限定符 二、基类和派生类的赋值转换三、继承中的作用域四、派生类的默认成员函数五、继承与友元六、继承与静态成员 前言 继承是面向对象的三大特性之一。我们常常会遇到这样的情况。很多角色的信…

MYSQL 作业三

创建一个student表格&#xff1a; create table student( id int(10) not null unique primary key, name varchar(20) not null, sex varchar(4), birth year, department varchar(20), address varchar(50) ); 创建一个score表格 create table score( id int(10) n…

ASP.NET WEB API通过SugarSql连接MySQL数据库

注意&#xff1a;VS2022企业版可以&#xff0c;社区版可能存在问题。实体名称和字段和数据库中的要一致。 1、创建项目&#xff0c;安装SqlSugarCore、Pomelo.EntityFrameworkCore.MySql插件 2、文件结构 2、appsettings.json { “Logging”: { “LogLevel”: { “Default”: …

从零实现kv存储V2.0

在V1.0版本&#xff0c;我们实现了基于array的kv存储引擎。本文继续完善&#xff0c;增加rbtree、hash、skiptable引擎。 实际上&#xff0c;在框架确定的基础上&#xff0c;其他的引擎只需要添加接口即可。 一、架构设计 二、具体实现 2.1 引擎层 //---------------------…

每天一道leetcode:646. 最长数对链(动态规划中等)

今日份题目&#xff1a; 给你一个由 n 个数对组成的数对数组 pairs &#xff0c;其中 pairs[i] [lefti, righti] 且 lefti < righti 。 现在&#xff0c;我们定义一种 跟随 关系&#xff0c;当且仅当 b < c 时&#xff0c;数对 p2 [c, d] 才可以跟在 p1 [a, b] 后面…

WSL2 Ubuntu子系统安装OpenCV

文章目录 前言一、&#xfeff;基本概念二、操作步骤1.下载源码2.安装依赖3.运行编译4.配置路径 前言 OpenCV用C语言编写&#xff0c;它的主要接口也是C语言&#xff0c;但是依然保留了大量的C语言接口。该库也有大量的Python, Java and MATLAB/OCTAVE (版本2.5)的接口。这些语…

最长递增子序列——力扣300

int lengthOfLIS(vector<int>& nums) {int len=1, n=nums.size();if

临床试验三原则-对照、重复、随机

临床试验必须遵循三个基本原则&#xff1a;对照、重复、随机。 一、对照原则和对照的设置 核心观点&#xff1a;有比较才有鉴别。 对照组和试验组同质可比。 三臂试验 安慰剂&#xff1a;试验组&#xff1a;阳性对照组1&#xff1a;n&#xff1a;m&#xff08;n≥m&#xff…

Android Framework 动态更新插拔设备节点执行权限

TF卡设备节点是插上之后动态添加&#xff0c;所以不能通过初始化设备节点权限来解决&#xff0c;需要监听TF插入事件&#xff0c;在init.rc 监听插入后动态更新设备节点执行权限 添加插拔TF卡监听 frameworks/base/services/core/java/com/android/server/StorageManagerServic…

轻量级自动化测试框架WebZ

一、什么是WebZ WebZ是我用Python写的“关键字驱动”的自动化测试框架&#xff0c;基于WebDriver。 设计该框架的初衷是&#xff1a;用自动化测试让测试人员从一些简单却重复的测试中解放出来。之所以用“关键字驱动”模式是因为我觉得这样能让测试人员&#xff08;测试执行人员…

《Java-SE-第三十八章》之注解

前言 在你立足处深挖下去,就会有泉水涌出!别管蒙昧者们叫嚷:“下边永远是地狱!” 博客主页&#xff1a;KC老衲爱尼姑的博客主页 博主的github&#xff0c;平常所写代码皆在于此 共勉&#xff1a;talk is cheap, show me the code 作者是爪哇岛的新手&#xff0c;水平很有限&…

Hlang社区项目说明

文章目录 前言Hlang社区技术前端后端 前言 Hello,欢迎来到本专栏&#xff0c;那么这也是第一次做这种类型的专栏&#xff0c;如有不做多多指教。那么在这里我要隆重介绍的就是这个Hlang这个项目。 首先&#xff0c;这里我要说明的是&#xff0c;我们的这个项目其实是分为两个…

Docker容器:docker基础概述、安装、网络及资源控制

文章目录 一.docker容器概述1.什么是容器2. docker与虚拟机的区别2.1 docker虚拟化产品有哪些及其对比2.2 Docker与虚拟机的区别 3.Docker容器的使用场景4.Docker容器的优点5.Docker 的底层运行原理6.namespace的六项隔离7.Docker核心概念 二.Docker安装 及管理1.安装 Docker1.…

Python语法基础——循环

学习目标 通过使用while循环编写重复执行的语句。遵从循环的设计策略开发循环。利用用户的确认控制循环。用哨兵值控制循环。通过使用输入重定向从文件获取大量数据而不是从键盘输入来来获取大量数据&#xff0c;并且使用输出重定向将输出存人文件。使用for循环来实现计数器控制…

vue 发现页面找不到3秒后跳转到本页面

这个路由跳转用到的是编程式跳转this.$router.push 两种写法&#xff1a; 第一种可以通过path来跳转 goto(/find) find是路由里边的路径 <span click"goto(/find)">发现音乐</span> <span click"goto(/my)">我的音乐</span> <…

单片机如何分散加载文件

本篇文章将通过实际操作介绍如何实现分散加载文件的方法。开发工具为&#xff1a;mdk&#xff1b;开发板&#xff1a;野火stm32f407 一、建立工程 通过实现简单的加法计算的软件算法&#xff0c;来了解分散加载image 的方法。 建立工程&#xff0c;创建文件夹以及相应的文件&am…

【boost网络库从青铜到王者】第三篇:asio网络编程中的buffer缓存数据结构

文章目录 1、关于buffer数据结构1.1、简单概括一下&#xff0c;我们可以用buffer() 函数生成我们要用的缓存存储数据。1.2、但是这太复杂了&#xff0c;可以直接用buffer函数转化为send需要的参数类型:1.3、output_buf可以直接传递给该send接口。我们也可以将数组转化为send接受…

PyQt5资源的加载和使用,即如何使用Pyrcc

1、打开QtDesigner&#xff0c;选择编辑资源 2、新建资源文件&#xff0c;随便找个地方保存 3、按照自己的喜好命名&#xff0c;然后添加资源 4、保存并退出 5、我们创建一个QLabel&#xff0c;在这里添加资源 6、我们保存界面文件&#xff0c;并编译为py文件&#xff0c;然后…