ChatGPT技术

news/2024/4/29 22:44:41/文章来源:https://blog.csdn.net/weixin_56938151/article/details/129797045

目录

  • 一、什么是ChatGPT?
  • 二、ChatGPT的技术背景
  • 三、ChatGPT的主要特点
  • 四、ChatGPT的工作原理
  • 五、ChatGPT为何成功?

一、什么是ChatGPT?

ChatGPT本质是一个对话模型,它可以回答日常问题、进行多轮闲聊,也可以承认错误回复、挑战不正确的问题,甚至会拒绝不适当的请求。

二、ChatGPT的技术背景

ChatGPT目前未释出论文文献,仅释出了介绍博文和试用API。从博文中提供的技术点和示意图来看,它与今年初公布的InstructGPT 核心思想一致。其关键能力来自三个方面:强大的基座大模型能力(InstructGPT),高质量的真实数据(干净且丰富),强化学习(PPO算法)。

三、ChatGPT的主要特点

让用户印象最深刻的是它有强大的语言理解和生成系统。其对话能力、文本生成能力、对不同语言表述的理解均很出色。它以对话为载体,可以回答多种多样的日常问题,对于多轮对话历史的记忆能力和篇幅增强。其次,与GPT3等大模型相比,ChatGPT回答更全面,可以多角度全方位进行回答和阐述,相较以往的大模型,知识被“挖掘”得更充分。它能降低了人类学习成本和节省时间成本,可以满足人类大部分日常需求,比如快速为人类改写确定目标的文字、大篇幅续写和生成小说、快速定位代码的bug等。

值得一提的事,它具有安全机制和去除偏见能力。下图这类问题在以前的大模型中时常出现,然而ChatGPT在这两点上增加了过滤处理机制。针对不适当的提问和请求,它可以做出拒绝和“圆滑”的回复。例如对于违法行为的提问:

在这里插入图片描述
对于未知事物的“拒绝”:
在这里插入图片描述
当然ChatGPT并非十全十美,其缺点也比较明显。首先,其简单的逻辑问题错误依旧明显存在,发挥不够稳定(但总体比GPT3好很多)。特别在有对话历史时,它容易因被用户误导而动摇。

在这里插入图片描述
其次,ChatGPT有时会给出看似合理、但并不正确或甚至荒谬的答案。部分答案需要自行甄别才能判断正误,特别当本身用户处于未知状态来咨询模型时,更加无法判断真伪。ChatGPT使得生产者可以用较低成本增加错误信息,而这一固有缺点已经造成了一些实际影响。编程问答网站 StackOverflow 宣布暂时禁止用户发布来自 ChatGPT 生成的内容,网站 mods 表示:看似合理但实际上错误的回复数量太多,已经超过了网站的承受能力。

此外,它抵抗不安全的prompt能力较差,还存在过分猜测用户意图的问题。这主要体现在当用户提问意图不明确时,ChatGPT会猜测用户意图,理想情况应为要求用户澄清;当用户意图不明确时,很大概率给出不合适的回复。大批量的用户反馈,ChatGPT部分回复废话较多、句式固定。它通常过度使用一些常见的短语和句式。这与构造训练数据时,用户倾向于选择更长的回复有关。

四、ChatGPT的工作原理

ChatGPT训练过程很清晰,主要分为三个步骤,示意如图所示:
在这里插入图片描述
第一步,使用有监督学习方式,基于GPT3.5微调训练一个初始模型,训练数据约为2w~3w量级(此处为推测量级,我们根据兄弟模型InstructGPT的训练数据量级估算)。由标注师分别扮演用户和聊天机器人,产生人工精标的多轮对话数据。值得注意的是,在人类扮演聊天机器人时,会得到机器生成的一些建议来帮助人类撰写自己的回复,以此提高撰写标注效率。

以上精标的训练数据虽然数据量不大,但质量和多样性非常高,且来自真实世界数据,这是很关键的一点。

第二步,收集相同上文下,根据回复质量进行排序的数据:即随机抽取一大批Prompt,使用第一阶段微调模型,产生多个不同回答:在这里插入图片描述之后标注人员对k个结果排序,形成训练组数据对。之后使用pairwise loss来训练奖励模型,可以预测出标注者更喜欢哪个输出。"从比较中"学习可以给出相对精确的奖励值。之后使用pairwise loss来训练奖励模型,可以预测出标注者更喜欢哪个输出。"从比较中"学习可以给出相对精确的奖励值。

这一步使得ChatGPT从命令驱动转向了意图驱动。关于这一点,李宏毅老师的原话称,“它会不断引导GPT说人类要他说的”。另外,训练数据不需过多,维持在万量级即可。因为它不需要穷尽所有的问题,只要告诉模型人类的喜好,强化模型意图驱动的能力就行。

第三步,使用PPO强化学习策略来微调第一阶段的模型。这里的核心思想是随机抽取新的Prompt,用第二阶段的Reward Model给产生的回答打分。这个分数即回答的整体reward,进而将此reward回传,由此产生的策略梯度可以更新PPO模型参数。整个过程迭代数次直到模型收敛。

强化学习算法可以简单理解为通过调整模型参数,使模型得到最大的奖励(reward),最大奖励意味着此时的回复最符合人工的选择取向。而对于PPO,我们知道它是2017年OpenAI提出的一种新型的强化学习策略优化的算法即可。它提出了新的目标函数,可以在多个训练步骤实现小批量的更新,其实现简单、易于理解、性能稳定、能同时处理离散/连续动作空间问题、利于大规模训练。

五、ChatGPT为何成功?

为何三段式的训练方法就可以让ChatGPT如此强大?其实,以上的训练过程蕴含了上文我们提到的关键点,而这些关键点正是ChatGPT成功的原因:

  • 强大的基座模型能力(InstructGPT)
  • 大参数语言模型(GPT3.5)
  • 高质量的真实数据(精标的多轮对话数据和比较排序数据)
  • 性能稳定的强化学习算法(PPO算法)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_280.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【我用ChatGPT学编程】Vue-Router中history模式Nginx部署后刷新404的问题

前言 作为一个码农我们都知道ChatGPT实际上是一个十分好用的代码工具,它使用了MarkDown语法更符合我们的习惯,并且可以根据语义理解问题并且给出多种解决方案,所以这个系列就是用ChatGPT来给出对于在coding时遇到的各种Bug。 ChatGPT似乎可…

不仅仅是ChatGPT:分享一些AI时代的有力工具

本文已发表在哔哔哔哔-不仅仅是ChatGPT:分享一些AI时代的有力工具 前言 可以说AI技术在2022年底是一个技术奇点,完成突破之后,我们可以预见一个技术爆炸的时代。 在计算机的早期,人与计算机的交互只有键盘,是鼠标和G…

上知天文,下知地理,还能替人写脚本!人工智能的进阶ChatGPT

ChatGPT是OpenAI在11月30日推出的聊天机器人,于12月1日起对公众免费开放。 自从这东西出来之后,大家对此的讨论热情越发浓烈。ChatGPT具体可以干些什么? 帮你写论文、检讨书、情书,甚至情诗也能信手拈来。 以上都是网友测试它写…

文心一言发布!【中国版ChatGPT】附测试链接

文心一言是百度推出的生成式对话产品,2023.3.16正式发布12。它基于文心大型模型技术,被外界誉为“中国版ChatGPT” 文心一言测试链接: https://cloud.baidu.com/survey_summit/wenxin.html 文心一言与Chatgpt对比 文心一言在中文的支持方面…

New bing带着chatGPT来啦

话不多说,随着chatGPT的到来,GPT-4的升级,AI时代真的要来啦。现在微软浏览器 bing 已经接入最新的GPT版本,而且是免费,重要的事情说三遍,免费使用GPT,免费使用GPT,免费使用GPT&#…

chatGPT和文言一心,我的看法

最近,ChatGPT-4和百度的文心一言,确实很火啊,尤其是下面的这个图,简直火遍了全网。 先说下,这类模型的一些看法。 1. 技术优势:这两个模型都采用了最先进的自然语言处理技术,如深度学习、神经网…

35岁找工作,我求助了ChatGPT。这是ChatGPT给出的建议

最近网上很多热议中年人找工作遭遇歧视的问题。正好碰到ChatGPT热火朝天,帮大家问一下,大家看看你觉得这各答案还凑合吗 ?chatGPT是这么回复的:当您寻找新的工作时,以下是一些建议:完善您的简历和求职信&am…

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门翻译编程语言应用——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门翻译编程语言应用场景Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字&am…

ChatGPT修bug横扫全场,准确率达78%!程序员要开心了

ChatGPT到底有多会修bug?这事终于有人正儿八经地搞研究了——来自德国、英国的研究人员,专门搭了个“擂台”来检验ChatGPT的这项本领。除了ChatGPT之外,研究人员还找来了其它三位修bug的“AI猛将”,分别让它们修复40个错误代码。结…

探索检测 AI 生成文本(包括 ChatGPT)的 4 种神奇方法

介绍: OpenAI 的 GPT-3 和 ChatGPT 最近的推出引发了人工智能和自然语言处理领域的一场革命。凭借其生成类人文本的能力,GPT-3 为企业和个人等开辟了许多新的可能性。GPT-4 指日可待。然而,这一进步也引起了人们对人工智能生成文本可能被滥用的担忧,特别是在错误信息、假新…

ChatGPT爆火,对制造业销售增长的AI建议

北京时间2023年2月8日,微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必应)和Edge浏览器。 ChatGPT的问世再次掀起AI热潮。 接下来让我们一起试试与ChatGPT对话,看看传说中上知天文下知地理的他是如何回答工业制造业…

文心ERNIE源码学习与实践:为超越ChatGPT打下技术基础!

ERNIE学习与实践:为超越ChatGPT打下技术基础! ERNIE是BERT相爱相杀的好基友,由ERNIE发展起来的文心大模型,是GPT3.0的强劲竞争对手,未来还会挑战ChatGPT的江湖地位! 在“BERT学习与实践:为紧追…

中科院ChatGPT 学术版 本地部署实践记录

近期中科院ChatGPT 学术版 在github上限了,截止本文发布已经有18.3k的star了。 他们将ChatGPT 学术版开源出来真的非常好,能让更多的人享受到科技的红利。 我也想着试一下,这次也记录下本地部署的过程。 其实文件中的readme,已…

ChatGPT Something went wrong 处理

一、报错提示 Something went wrong. If this issue persists please contact us through our help center at help.openai.com. 二、解决方案 一般是代理节点出现问题 ChatGPT退出登录 关闭代理并重新启动代理 切换其他节点 清除浏览器缓存 重新登录ChatGPT 问题解决&…

ChatGPT中文版重装上阵

ChatGPT中文版重装上阵 近日,AI模型市场联手OpenAI推出了新版ChatGPT,这是一款面向聊天机器人开发的自然语言处理(NLP)模型。ChatGPT是一款非常强大的NLP模型,可以帮助开发者构建会话式聊天机器人,它可以更…

从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进...

图文原创:亲爱的数据“Were building something big ... stay tuned. Talk to me if you want to work on scalable foundation models.”“我们正在建造一个大项目……请继续关注。如果你想在可扩展基础模型上工作,请告诉我。”“参数服务器之父” Alex…

ChatGPT|微信快速接入ChatGPT

前言 最近chatGPT可谓是火的一发不可收拾,从圈内火到圈外。在人工智能领域,Ai已经是一个屡见不鲜的东西了,为什么这次openAi推出的chatGPT却异常的受人欢迎?其实这还得益于GPT模型。 那么什么是GPT模型?我们可以看一…

火爆全球的ChatGPT是什么?

引言 ChatGPT 最近非常火,引发各界关注。吸引了几亿人在使用。报道中充斥了各种言论:“学生用 ChatGPT 写作业”、“上线两个月活跃用户破亿”、“以后很多文案工作者要被 ChatGPT 取代了!”等等。究竟什么是 ChatGPT?用途有哪些…

快!体验文心一言;ChatGPT关键词优化指南;Midjourney从入门到精通;AI绘画资料合集;Midjourney v5效果相当不错 | ShowMeAI日报

👀日报合辑 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『文心一言』没邀请码?这个方式能跟「文心一言」聊天! 文心一言正式发布,普通的对话效果好于预期&#xff0…

5个 ChatGPT 功能,帮助你提升日常编码效率

ChatGPT 作为最快完成亿活用户的应用,最近真的是火出天际了。今天分享5个 ChatGPT 功能,来提升我们的日常工作以及如何使用它提高代码质量。 ChatGPT 的出现,彻底改变了开发代码的方式。但是目前为止,大多数软件开发人员和数据专业…