GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结的时代到来了?

news/2024/4/29 16:02:08/文章来源:https://blog.csdn.net/weixin_41259045/article/details/129555290

ChatGPT 点燃了科技行业的明灯,GPT-4 能燎原吗?

谁能革得了 ChatGPT 的命?现在看来还是 OpenAI 自己。

人们一直在探讨AI下一步的发展方向是什么,特别是在ChatGPT引爆科技领域之后。许多学者认为,多模态技术将成为未来AI发展的重要方向。不出所料,在等待的时间不会太久。今天凌晨,OpenAI宣布发布了多模态预训练大模型GPT-4。这一消息对于AI领域来说具有重大的意义。GPT-4的发布将进一步推动多模态技术的发展,也为未来的智能应用和交互式游戏提供了更强大的技术支持。

GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。 

 OpenAI工程师在介绍视频中表示,GPT-4是世界上第一款具备高体验和强能力的先进AI系统,并且OpenAI希望能够尽快将其推向全球市场。

显然,OpenAI的目标是要一举终结这场游戏,他们发布了技术报告和System Card,并将ChatGPT直接升级为GPT-4版,同时还开放了GPT-4的API接口。

此外,微软的营销主管也在第一时间发表了评论,表示如果用户在过去六周内使用了新版Bing预览版搜索引擎,那么他们已经提前体验到了GPT-4的强大功能。显然,微软也已经将GPT-4成功应用到他们的产品中。

接下来,就让我们细细品味这场震撼发布。

 GPT-4:我 SAT 考 710,也能当律师

GPT-4是一个大型多模态模型,它可以接受图像和文本输入,并输出正确的文本回复。实验表明,GPT-4在各种专业测试和学术基准上的表现都能够达到人类水平。例如,GPT-4已经成功通过了模拟律师考试,并且其得分在应试者的前10%左右。相比之下,GPT-3.5的得分仅在倒数10%左右。这一结果表明,GPT-4的表现已经远远超越了GPT-3.5,并且具备更强大的学习和推理能力。

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整 ,从而在真实性、可控性等方面取得了有史以来最好的结果。

在过去两年中,OpenAI 重新构建了整个深度学习堆栈,并与 Azure 共同设计了一台超级计算机,以支持其工作负载。一年前,OpenAI 首次在使用超算系统训练 GPT-3.5 时尝试了该系统,之后他们陆续发现并修复了一些错误,改进了理论基础。这些改进的结果导致 GPT-4 的训练具有前所未有的稳定性,以至于 OpenAI 能够提前准确预测 GPT-4 的训练性能,这是第一个能够实现这一点的大模型。OpenAI 表示,他们将继续专注于可靠的扩展,进一步完善方法,以帮助其实现更强大的预测性能和规划未来的能力,这对安全至关重要。

OpenAI 正在通过 ChatGPT 和 API(有候补名单)发布 GPT-4 的文本输入功能。图像输入功能方面,为了获得更广泛的可用性,OpenAI 正在与其他公司展开合作。

OpenAI 今天还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。OpenAI 表示此举是为了让所有人都可以指出其模型中的缺点,以帮助 OpenAI 进一步改进模型。

有趣的是,GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时,差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。为了了解这两个模型之间的差异,OpenAI 在各种基准和一些为人类设计的模拟考试上进行了实验。

 

 OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数 SOTA 模型:

 许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力,研究团队使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种语言的 24 种中,GPT-4 优于 GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能:

 就像许多使用 ChatGPT 的公司一样,OpenAI 表示他们内部也在使用 GPT-4,因此 OpenAI 也在关注大型语言模型在内容生成、销售和编程等方面的应用效果。OpenAI 还使用 GPT-4 辅助人们评估 AI 输出,这也是 OpenAI 对其策略的第二阶段。OpenAI 既是 GPT-4 的开发者,也是使用者。

GPT-4:我能玩梗图

GPT-4 可以接受文本和图像形式的 prompt,新能力与纯文本设置并行,允许用户指定任何视觉或语言任务。

具体来说,它在人类给定由散布的文本和图像组成的输入的情况下生成相应的文本输出(自然语言、代码等)。在一系列领域 —— 包括带有文本和照片的文档、图表或屏幕截图上 ——GPT-4 展示了与纯文本输入类似的功能。此外,它还可以通过为纯文本语言模型开发的测试时间技术得到增强,包括少样本和思维链 prompt。

比如给 GPT-4 一个长相奇怪的充电器的图片,问为什么这很可笑?

 GPT-4 回答道,VGA 线充 iPhone。

 格鲁吉亚和西亚的人均每日肉类消费,算平均数:

 看起来,现在的 GPT 已经不会在计算上胡言乱语了:

 还是太简单,那直接让它做题,还是个物理题:

 GPT-4 看懂了法语题目,并完整解答:

 GPT-4 可以理解一张照片里「有什么不对劲的地方」:

 GPT-4 还可以量子速读看论文,如果你给它 InstructGPT 的论文,让它总结摘要,就会变成这样:

 

 如果你对论文里的某一个图感兴趣呢?GPT-4 也可以解释一下:

 接着来,问 GPT-4 梗图是什么意思:

 它给出了详细的回答:

漫画呢?

让 GPT-4 解释为什么要给神经网络加层数,似乎有一点加倍的幽默感。

 

不过 OpenAI 在这里说了,图像输入是研究预览,仍不公开。

研究人员用学术的 Benchmark 视角来解读 GPT-4 的看图能力,然而这已经不够了,他们还能不断发现该模型可以令人兴奋地处理新任务 —— 现在的矛盾是 AI 的能力和人类想象力之间的矛盾。

看到这里,应该有研究人员感叹:CV 不存在了。

可控性

与具有固定冗长、平静语气和风格的经典 ChatGPT 个性不同,开发人员(以及 ChatGPT 用户)现在可以通过在「系统」消息中描述这些方向来规定他们的 AI 的风格和任务。

系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。OpenAI 知道你们在让 ChatGPT 玩 Cosplay,也鼓励你们这样做。

局限性

尽管功能已经非常强大,但 GPT-4 仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。

目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。

总的来说,GPT-4 相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

 

 GPT-4 在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。

 实验结果表明,GPT-4 基本模型在此任务上仅比 GPT-3.5 略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4 的测试示例 —— 并不是所有时候它都能做出正确的选择。

该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

GPT-4 通常缺乏对其绝大部分数据截止后(2021 年 9 月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。

GPT-4 预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。

 

风险及缓解措施

OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。

GPT-4 有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。同时,GPT-4 的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。

预防风险

按照 demo 视频里 OpenAI 工程师们的说法,GPT-4 的训练在去年 8 月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。

这些措施大大在许多方面改善了 GPT-4 的安全性能。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。

 

训练过程

与之前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。

因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。请注意,该模型的能力似乎主要来自预训练过程 ——RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程 —— 基础模型甚至需要及时的工程设计来回答问题。

GPT-4 的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是,对于像 GPT-4 这样的大型训练,进行广泛的特定模型调整是不可行的。团队开发了基础设施和优化,在多种规模下都有可预测的行为。为了验证这种可扩展性,他们提前准确地预测了 GPT-4 在内部代码库(不属于训练集)上的最终损失,方法是通过使用相同的方法训练的模型进行推断,但使用的计算量为 1/10000。

 现在,OpenAI 可以准确地预测在训练过程中优化的指标(损失)。例如从计算量为 1/1000 的模型中推断并成功地预测了 HumanEval 数据集的一个子集的通过率:

 有些能力仍然难以预测。例如,Inverse Scaling 竞赛旨在找到一个随着模型计算量的增加而变得更糟的指标,而 hindsight neglect 任务是获胜者之一。GPT-4 扭转了这一趋势。

 

能够准确预测未来的机器学习能力对于技术安全来说至关重要,但它并没有得到足够的重视,OpenAI 表示正在投入更多精力开发相关方法,并呼吁业界共同努力。

OpenAI 表示正在开源 OpenAI Evals 软件框架,它被用于创建和运行基准测试以评估 GPT-4 等模型,同时可以逐样本地检查模型性能。

ChatGPT 直接升级至 GPT-4 版

GPT-4 发布后,OpenAI 直接升级了 ChatGPT。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。

要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户可以注册等待。OpenAI 会邀请部分开发者体验。

获得访问权限后,用户目前可以向 GPT-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)。至于价格方面,定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文(约 50 页文本)版本的有限访问,该版本也将随着时间自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上,就是今天 OpenAI 关于 GPT-4 的所有内容了。令人不满的一点是,OpenAI 公开的技术报告中,不包含任何关于模型架构、硬件、算力等方面的更多信息,可以说是很不 Open 了。

不管怎样,迫不及待的用户大概已经开始测试体验了吧。

 最后,也想问一下读者,看完 GPT-4 的发布,你有何感想。

参考内容:https://openai.com/product/gpt-4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_285.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我对ChatGPT的一些看法与思考

我对ChatGPT的一些看法与思考 文章目录我对ChatGPT的一些看法与思考1.什么是ChatGPT1.1 ChatGPT是干啥的1.2 ChatGPT的发布时间1.3 ChatGPT的图标2.ChatGPT的同类程序以及ChatGPT的优越性2.1 ChatGPT的同类程序2.2 ChatGPT相较于其他的优越性2.3ChatGPT已经开源的部分代码3.我对…

一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构

1. 跑ChatGPT体量模型,从此只需一块GPU 在发展技术,让大模型掌握更多能力的同时,也有人在尝试降低AI所需的算力资源。最近,一种名为FlexGen的技术因为「一块RTX 3090跑ChatGPT体量模型」而获得了人们的关注。 虽然FlexGen加速后的…

大战谷歌!微软Bing引入ChatGPT;羊了个羊高·薪招纳技术人才;Debian彻底移除Python2;GitHub今日热榜 | ShowMeAI资讯日报

👀日报合辑 | 🎡AI应用与工具大全 | 🔔公众号资料下载 | 🍩韩信子 🎡 『微软Bing』将引入 ChatGPT,与 Google 一场大战难免 微软计划2023年3月底之前推出 Bing 搜索引擎的新版本,使用 ChatGPT …

ChatGPT目前存在四大严重设计问题, 全面使用前需要注意OpenAI正在努力解决

随着 Make-A-Video、ChatGPT、PaLM 和其他大型语言模型获得如此多的关注,重要的是要记住这些模型存在严重的设计问题。 ChatGPT 最近很火。人们一直在使用它来完成各种任务——从撰写销售电子邮件和完成大学作业,甚至作为 Google 搜索的可能替代品。将其与其他大型语言模型(…

ChatGPT技术

目录一、什么是ChatGPT?二、ChatGPT的技术背景三、ChatGPT的主要特点四、ChatGPT的工作原理五、ChatGPT为何成功?一、什么是ChatGPT? ChatGPT本质是一个对话模型,它可以回答日常问题、进行多轮闲聊,也可以承认错误回复…

【我用ChatGPT学编程】Vue-Router中history模式Nginx部署后刷新404的问题

前言 作为一个码农我们都知道ChatGPT实际上是一个十分好用的代码工具,它使用了MarkDown语法更符合我们的习惯,并且可以根据语义理解问题并且给出多种解决方案,所以这个系列就是用ChatGPT来给出对于在coding时遇到的各种Bug。 ChatGPT似乎可…

不仅仅是ChatGPT:分享一些AI时代的有力工具

本文已发表在哔哔哔哔-不仅仅是ChatGPT:分享一些AI时代的有力工具 前言 可以说AI技术在2022年底是一个技术奇点,完成突破之后,我们可以预见一个技术爆炸的时代。 在计算机的早期,人与计算机的交互只有键盘,是鼠标和G…

上知天文,下知地理,还能替人写脚本!人工智能的进阶ChatGPT

ChatGPT是OpenAI在11月30日推出的聊天机器人,于12月1日起对公众免费开放。 自从这东西出来之后,大家对此的讨论热情越发浓烈。ChatGPT具体可以干些什么? 帮你写论文、检讨书、情书,甚至情诗也能信手拈来。 以上都是网友测试它写…

文心一言发布!【中国版ChatGPT】附测试链接

文心一言是百度推出的生成式对话产品,2023.3.16正式发布12。它基于文心大型模型技术,被外界誉为“中国版ChatGPT” 文心一言测试链接: https://cloud.baidu.com/survey_summit/wenxin.html 文心一言与Chatgpt对比 文心一言在中文的支持方面…

New bing带着chatGPT来啦

话不多说,随着chatGPT的到来,GPT-4的升级,AI时代真的要来啦。现在微软浏览器 bing 已经接入最新的GPT版本,而且是免费,重要的事情说三遍,免费使用GPT,免费使用GPT,免费使用GPT&#…

chatGPT和文言一心,我的看法

最近,ChatGPT-4和百度的文心一言,确实很火啊,尤其是下面的这个图,简直火遍了全网。 先说下,这类模型的一些看法。 1. 技术优势:这两个模型都采用了最先进的自然语言处理技术,如深度学习、神经网…

35岁找工作,我求助了ChatGPT。这是ChatGPT给出的建议

最近网上很多热议中年人找工作遭遇歧视的问题。正好碰到ChatGPT热火朝天,帮大家问一下,大家看看你觉得这各答案还凑合吗 ?chatGPT是这么回复的:当您寻找新的工作时,以下是一些建议:完善您的简历和求职信&am…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门翻译编程语言应用——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门翻译编程语言应用场景Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字&am…

ChatGPT修bug横扫全场,准确率达78%!程序员要开心了

ChatGPT到底有多会修bug?这事终于有人正儿八经地搞研究了——来自德国、英国的研究人员,专门搭了个“擂台”来检验ChatGPT的这项本领。除了ChatGPT之外,研究人员还找来了其它三位修bug的“AI猛将”,分别让它们修复40个错误代码。结…

探索检测 AI 生成文本(包括 ChatGPT)的 4 种神奇方法

介绍: OpenAI 的 GPT-3 和 ChatGPT 最近的推出引发了人工智能和自然语言处理领域的一场革命。凭借其生成类人文本的能力,GPT-3 为企业和个人等开辟了许多新的可能性。GPT-4 指日可待。然而,这一进步也引起了人们对人工智能生成文本可能被滥用的担忧,特别是在错误信息、假新…

ChatGPT爆火,对制造业销售增长的AI建议

北京时间2023年2月8日,微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必应)和Edge浏览器。 ChatGPT的问世再次掀起AI热潮。 接下来让我们一起试试与ChatGPT对话,看看传说中上知天文下知地理的他是如何回答工业制造业…

文心ERNIE源码学习与实践:为超越ChatGPT打下技术基础!

ERNIE学习与实践:为超越ChatGPT打下技术基础! ERNIE是BERT相爱相杀的好基友,由ERNIE发展起来的文心大模型,是GPT3.0的强劲竞争对手,未来还会挑战ChatGPT的江湖地位! 在“BERT学习与实践:为紧追…

中科院ChatGPT 学术版 本地部署实践记录

近期中科院ChatGPT 学术版 在github上限了,截止本文发布已经有18.3k的star了。 他们将ChatGPT 学术版开源出来真的非常好,能让更多的人享受到科技的红利。 我也想着试一下,这次也记录下本地部署的过程。 其实文件中的readme,已…

ChatGPT Something went wrong 处理

一、报错提示 Something went wrong. If this issue persists please contact us through our help center at help.openai.com. 二、解决方案 一般是代理节点出现问题 ChatGPT退出登录 关闭代理并重新启动代理 切换其他节点 清除浏览器缓存 重新登录ChatGPT 问题解决&…

ChatGPT中文版重装上阵

ChatGPT中文版重装上阵 近日,AI模型市场联手OpenAI推出了新版ChatGPT,这是一款面向聊天机器人开发的自然语言处理(NLP)模型。ChatGPT是一款非常强大的NLP模型,可以帮助开发者构建会话式聊天机器人,它可以更…