【ChatGPT】参加计算机科学考试(GPT-4对比GPT-3.5)

news/2024/3/19 12:53:30/文章来源:https://blog.csdn.net/weixin_51141489/article/details/129788851

ChatGPT真的“无敌”了吗????

当【ChatGPT】参加大学生计算机科学考试

  • 1.简介
  • 2.介绍
  • 3.ChatGPT(GPT-4对比GPT-3.5)参加计算机考试实验
  • 4.实验设计
    • 4.1实验介绍
    • 4.2 对ChatGPT提出问题
    • 4.3测试结果
  • 5. GTP-4
  • 6. 讨论

1.简介

我们邀请ChatGPT参加一项关于算法和数据结构的本科计算机科学考试。我们把它的答案手抄到一张考卷上,然后在盲测的情况下,随机选200名参与的学生。我们发现ChatGPT以20.5(满分40分)的成绩勉强通过了考试。这一令人印象深刻的表现表明,ChatGPT确实可以成功完成大学考试等具有挑战性的任务。同时,我们考试中的问题在结构上与其他考试相似,解决的家庭作业题,以及可以在网上找到的教学材料,这些材料可能是ChatGPT训练数据的一部分。因此,从这个实验中得出ChatGPT对计算机科学有任何理解的结论是不充分的。我们也评估了GPT-4带来的改进。我们发现,GPT-4比GPT-3.5多获得17%的考试分数,达到了普通学生的表现。

2.介绍

许多人已经注意到ChatGPT1的功能OpenAI的一种新型聊天机器人模型令人印象深刻,该模型甚至可以成功完成大学考试等具有挑战性的现实任务。事实上,已有证据表明这可能是事实。此外,对模型响应的评估通常不是盲目的,这可能是有问题的,因为众所周知ChatGPT会产生需要解释的奇怪答案。因此,尽管有很多关于这个话题的讨论,到目前为止,关于ChatGPT在大学考试中的能力的系统证据很少。

3.ChatGPT(GPT-4对比GPT-3.5)参加计算机考试实验

我们提出了一个简单但严格的实验的结果,评估的能力。关于算法和数据结构的本科生计算机科学考试。我们在常规大学考试的同时进行了这个实验,这使我们能够在一个盲设置中与学生一起评估模型的反应。我们以简单的标准化格式提出了不同的考试问题,使ChatGPT能够对所有考试问题给出明确的答案。
在这里插入图片描述

表1:在我们的考试中,ChatGPT在10个不同的练习中获得的分数,与参加我们考试的200名学生获得的平均分数进行比较。

  • 第一行描述了ChatGPT使用GPT-3.5基本模型获得的点。这是本文讨论的主要实验的结果,其中模型反应与学生反应一起盲目评分。ChatGPT-3.5获得了20.5分(满分40分)。
  • 第二行描述了ChatGPT使用GPT-4基本模型获得的点。在这里,模型响应根据主实验中使用的相同评分方案进行评分,但评分不是盲目的。我们估计ChatGPT-4将获得约24分,达到平均学生的表现。
  • 第三行表示参加考试的200名学生获得的平均分数。

实验的结果是,ChatGPT将以20.5分(满分40分)的成绩侥幸通过考试。这令人印象深刻,但也突出了当前模型版本的局限性。特别是,该模型的表现比参加考试的平均学生的表现更差(平均学生获得约24分,比较表1)。就考试相对标准化而言,ChatGPT的混合表现是有趣的。类似的考试在世界各地都有,并且涵盖了很多关于主题的信息。
我们也评估了GPT-4带来的改进。我们发现,使用GPT-4基础模型的ChatGPT在考试中比使用GPT-3.5基础模型的ChatGPT多获得17%的分数,达到了普通学生的成绩。

4.实验设计

4.1实验介绍

我们考虑一个关于算法和数据结构的入门课程的考试。考试内容包括排序算法、图遍历和动态规划。总的来说,考试涵盖的主题在世界各地都以类似的方式进行教学。考试包含不同类型的问题,包括多项选择题、写小题、写伪代码和画图。进行这个实验的想法并没有把考试中的练习偏向于ChatGPT的能力。

4.2 对ChatGPT提出问题

在这里插入图片描述
我们在与模型的19个不同的对话中提出了考试问题,依赖于考试的latex源文件。我们告诉模型,我们正在问计算机科学考试中关于算法的问题,并要求它提供简短、准确的答案,在整个过程中,我们并没有试图设计提示来引导模型走向更好或更差的答案,唯一的目标是,该模型将为所有问题提供明确的答案。
一些考试题目涉及数学、伪代码或图形。在本例中,我们简单地使用来自考试的latex源代码提示模型,如下例所示:
在这里插入图片描述
例如,当我们要求模型写一个小的证明时,它会用乳胶方程来回应。类似地,当我们要求模型完成伪代码时,它以有效的方式完成了给定的伪代码。
在与模型进行对话之后,我们将答案手写在一张试卷上,在这样做的过程中,我们当然将模型的所有乳胶输出“渲染”到纸张上。

4.3测试结果

在本节中,我们将讨论GPT-3.5的主要实验结果。所带来的改善GPT-4将在下一节讨论。主要结果是,ChatGPT获得20.5分(满分40分),通过了考试。由于要通过考试至少需要20分,ChatGPT仅以非常微弱的优势通过。
在考试的其他部分,ChatGPT给出了错误的答案,有时甚至是奇怪的答案,(如下图)特别是,该模型在涉及结构化输出(不是伪代码)的所有练习中都遇到了困难。
在这里插入图片描述

5. GTP-4

在本节中,除了本文考虑的主要实验外,我们还评估了GPT-4带来的改进。GPT-4技术报告在许多不同的考试中比较了GPT-4和GPT-3.5,并报告了巨大的性能提升(OpenAI, 2023)。然而,由于报告中使用的数据集不可用,因此很难复制和评估这些结果。然而,有人指出,有证据可以对训练数据进行测试。
总的来说,ChatGPT-4获得了24分(满分40分)。这是3.5个百分点,即17%ChatGPT与GPT-3.5基础模型。有趣的是,这意味着ChatGPT-4在我们的考试中与普通学生的表现相当。虽然改进看起来很小,但实际上它确实意味着ChatGPT-4能够回答一些更有挑战性的多项选择题,这些问题是以前版本的模型难以回答的。

6. 讨论

我们的实验结果与现有的研究一致,这些研究记录了大型语言模型令人印象深刻的能力,以及它们严重的局限性。我们想强调的是,ChatGPT能够通过我们的考试这一事实并不意味着它对计算机科学有任何理解,就像我们可能期望它能够通过考试的人那样。当然可以合理地假设ChatGPT在培训过程中看到了许多与我们考试中相似的练习和解决方案。一般来说,为了了解像ChatGPT这样的模型的能力和局限性,需要进行更多的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_80.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT调研

ChatGPT调研背景:ChatGPT简单介绍FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERSFine-Tuning Language Models from Human PreferencesLearning to Summarize with Human FeedbackTraining language models to follow instructions with human feedbackChatGPTC…

ChatGPT在智能投顾领域应用探讨

ChatGPT上线不到一周用户突破100万,据报道称,ChatGPT开发者OpenAI预计ChatGPT明年年营收将会达到2亿美元,2024年营收将达到10亿美元。业内也都是ChatGPT的溢美之词,关于其实现的探讨已有不少。对其在具体场景中的应用探讨不多&…

如何使用自己的chatgpt

怎么开始chatgpt 对普通用户来说可以简单认为就是一个智能聊天机器人,比以往的智能机器人更加强大。要使用ChatGPT要做哪些准备工作呢 使用的工具 一个google邮箱账号 sms 接码平台 如何开始 首先点开 chatgpt官网 用google账号注册 然后就是短信验证 由于没有…

中科院学术专用版 ChatGPT,开源了!

公众号关注 “GitHubDaily”设为 “星标”,每天带你逛 GitHub!周末的时候,一位开发者将名为「ChatGPT Academic」的项目开源至 GitHub。仅用了短短一两天,该项目 Star 数便增长到了 1800,成为 GitHub 上又一个基于 Cha…

使用简单的编程为您的网站构建具有自定义知识的类似 ChatGPT 的聊天机器人

与 ChatGPT 类似,但其形式可以插入您的网站,并通过将基本的“老派”NLP 与尖端的 GPT-3 相结合,使用任何类型的定制信息进行扩展。 介绍 在 2022 年底,您很可能已经听说过 ChatGPT,甚至通过使用它见证了它的强大。ChatGPT 是一项革命性的人工智能技术,它允许用户与非常智…

快速集成ChatGPT,请收藏好这份入门指南(Python版)

ChatGPT 是 GPT-3 语言模型的变体,专为会话语言生成而设计。如果要在 Python 中使用 ChatGPT,您需要安装 OpenAI API 客户端并获取 API 密钥。在本文中,我们将设置一个简单的示例,教您在 Python 程序中使用 ChatGPT 所需的确切步骤…

ChatGPT和New Bing作为AI界新宠,两者有何异同

ChatGPT和New Bing是两个不同的实体,它们之间有一些区别也有一些相似之处。我先说说各自的特点,再汇总说说两者的异同点。 ChatGPT的特点: ChatGPT是一个基于神经网络的自然语言处理模型,能够自动生成自然语言响应。ChatGPT的模型…

我让API版的ChatGPT长了记性!

OpenAI的API接口是基于请求/响应模式的,每次请求的上下文是独立的,不会被记录和保存。因此,ChatGPT机器人无法记录和理解上一次请求的内容,也不会把上下文信息带入到下一次请求中。请看下面我通过API调用的方式和ChatGPT的聊天记录…

关于Chatgpt的所思所悟

关于最近看到的各种有关chatgpt的热火朝天的讨论、以及自己的所思所悟。我也有一些关于chatgpt的看法,随便写写。1、chatgpt 是类似于一种模电转数电的进步。模电转数电是指我们自然届的一些连续信号被采样后可以作为计算机等机器可以处理的离散值。说起来有点玄乎&…

沙龙|AI iPhone时刻来临!如何获得登上类ChatGPT的船票?

出品|网易科技数字星球作者|袁宁编辑|丁广胜兴奋麻了!还没从ChatGPT带来的震撼中回过神来,过去几天GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言相继引爆,互联网巨头纷纷抢滩入…

ChatGPT接入微信,让互动更简洁

目录 引言 关于注册 关于部署 tips: 引言 之前在网上冲浪的时候,看到了一位大佬发布的文章。其中介绍了如何进行ChatGPT部署至微信。有两种方法,一种适合有技术的,还有一种适合小白部署。(那我部署的当然是小白的&…

聊天机器人ChatGPT刷爆网络,我们与它聊了聊量子计算

进入12月,几乎全网都在为OpenAI开发的AI聊天机器人ChatGPT疯狂。从“找不到对象怎么办?”、“如何考上清华大学?”,到“预测2022世界杯结果”、“写出俄罗斯方块代码”,甚至在谷歌工程师Zac Denham的一步步诱导下&…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门多语种翻译应用场景——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

List item 从0到1快速入门多语种翻译应用场景Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和…

ChatGPT写作:快速生成优质博客文章的神器

今天我们将聊聊如何使用ChatGPT快速生成优质的博客文章,并且在短时间内提高写作效率。 首先,让我们简单介绍一下ChatGPT。它是一种基于深度学习的自然语言处理模型,能够自动地生成人类般的文本。通过训练大量的文本数据,ChatGPT可…

AI 在编程、写作、绘画领域的占卜:从 GitHub Copilot 到 ChatGPT,再到 Stable Diffusion...

PS:就当前节点(2023.02.22)而言,我虽然研究过一段时间传统的机器学习,但是并不擅长深度学习等领域,所以很多 AI 领域相关的词汇,我是不擅长的,只为自己总结一下,方便在未…

爆火出圈的chatGPT

🏆今日学习目标: 🍀ChatGPT ✅创作者:林在闪闪发光 ⏰预计时间:30分钟 🎉个人主页:林在闪闪发光的个人主页 🍁林在闪闪发光的个人社区,欢迎你的加入: 林在闪闪发光的社区…

chatgpt一键生成 PPT

在即将过完的 12 月,相信很多人都在忙一件事:年终工作汇报。就像那句话说的:职场人,不是在做 PPT,就是在做 PPT 的路上……职场人苦 PPT 久矣。想做出一份优秀的 PPT,确实难点颇多:要构思亮眼的…

【创作赢红包】ChatGPT引爆全网引发的AI算力思考

文章目录前言AIGC时代:万物皆可AI生成“大厂”纷纷入局算力各位后面有AI、大数据模型学习做研究需求或购买阿里云、腾讯云、华为云 服务器部署的 可以私信我 ,有一定的优惠!前言 随着 ChatGPT的强势推出,智能聊天机器人ChatGPT热…

【记录】ChatGPT|近期三次更新一览(更新至2023年2月3日)

如果你还没有使用过ChatGPT,可以先看看我的上一篇文章:【记录】ChatGPT|使用技巧与应用推荐(更新至2023年2月8日)。   1月11号晚上,ChatGPT突然很多人都无法登录,包括我。我当时以为是它的服务…

人工智能里程碑ChatGPT之最全详解图解

人工智能里程碑ChatGPT之最全详解图解1. ChatGPT的前世今生1.1 ChatGPT演化路线1.2技术推进路线2.ChatGPT主要功能及应用领域2.1 主要功能2.2 应用领域3.1ChatGPT原理3.1 ChatGPT基石之Transformer3.1.1Transformer结构图3.1.2 Transformer结构图* 关于Transformer的详细原理请…