最强的数据增强--ChatGPT?

news/2024/4/20 14:12:31/文章来源:https://blog.csdn.net/weixin_47338596/article/details/129694339

在许多自然语言处理(NLP)任务中,文本数据增强是克服样本量有限挑战的有效策略。

目前的文本数据增强方法要么不能保证生成数据的正确标记(缺乏可信度),要么不能保证生成数据的足够多样性(缺乏完整性),要么两者兼有。

ChatGPT在具有无与伦比的语言丰富性的数据上进行训练,并采用了具有大规模人类反馈的强化训练过程,这使得模型与人类语言的自然性具有亲和力。我们的文本数据增强方法ChatAug将训练样本中的每个句子重新表达为多个概念相似但语义不同的样本。然后,增强样本可以用于下游模型训练。

假设llm的发展将做到人类级别的注释性能,从而彻底改变NLP中的few-shot和多任务领域。

数据增强

数据增强,即通过转换人工生成新的文本,被广泛用于改进文本分类中的模型训练。在NLP中,现有的数据增强方法在不同的粒度级别上工作:字符、单词、句子和文档。

目前的文本数据增强方法问题:

•不能保证生成数据的正确标记(缺乏可信度),
•不能保证生成数据的足够多样性(缺乏完整性),

Few-shot Learning

Few-shot Learning ,专注于开发解决方案以应对小样本量的挑战。 FSL 研究旨在利用先验知识快速泛化到仅包含少量标记样本的新任务。 few-shot learning 的一个经典应用场景是当由于隐私、安全或道德考虑而难以或不可能获得监督示例时。

因此,本文提出的 ChatAug 方法已证明能够生成准确和全面的训练样本,可以克服当前 FSL 方法的问题,并有可能改变 NLP 中少样本学习的格局。

Very Large Language Models

大型语言模型旨在学习输入文本的准确潜在特征表示。这些大型语言模型的核心是受 BERT 和 GPT 启发的转换器模型,尽管规模要大得多。非常大的语言模型可以潜在地消除微调的需要,同时保持竞争性能 。

ChatGPT 基于 GPT-3 ,GPT-3 是在海量 Web 数据上训练的,信息多样且丰富。此外,ChatGPT 通过人类反馈强化学习 (RLHF) 进行训练。在 RLHF 期间,人类反馈被纳入生成和选择最佳结果的过程。更具体地说,奖励模型是根据人类注释者的排名或生成的结果来训练的。反过来,这个奖励模型奖励最符合人类偏好和人类价值观的模型输出。

method

Overall Framework

在这里插入图片描述

a(上图):首先, ChatGPT 进行数据扩充。将所有类别的样本输入 ChatGPT 并提示 ChatGPT 生成与现有标记实例保持语义一致性的样本。 b(下图):下一步,在少量样本和生成的数据样本上训练基于 BERT 的句子分类器,并评估模型的分类性能。

训练算法步骤:

在这里插入图片描述

Data Augmentation with ChatGPT

与 GPT 、GPT-2 和 GPT-3类似,ChatGPT 属于自回归语言模型家族,使用 transformer decoder blocks 作为模型骨干。

预训练期间,进行无监督的样本估计。ChatGPT被认为是来自一组样本

X=x1,x2,...,xnX = {x_1, x_2, ...,x_n}X=x1,x2,...,xn
的无监督分布估计,由m个token组成的样本 x_i定义为

xi=(s1,s2,...,sm)xi = (s_1, s_2, ..., s_m)xi=(s1,s2,...,sm)
预训练的目标是最大化以下似然:

在这里插入图片描述

其中 θ 表示 ChatGPT 的可训练参数。

tokens表示为
在这里插入图片描述

其中 W_e 是tokens(就个单词)嵌入矩阵,W_p 是位置(每个单词的位置)嵌入矩阵。

然后使用N个transformer块来提取样本的特征:

在这里插入图片描述

最后预测目标token:

在这里插入图片描述

其中 h_N 是顶部变压器块的输出。

预训练后,ChatGPT 的开发人员应用人类反馈强化学习 (RLHF) 来微调预训练语言模型。 RLHF 通过根据人类反馈对语言模型进行微调,使语言模型与用户对广泛任务的意图保持一致。

ChatGPT的RLHF包含三个步骤

step1:Supervised Fine-tuning (SFT)

ChatGPT 使用标记数据进行进一步训练。 AI 培训师扮演用户和 AI 助手的角色,根据prompt建立答案。带有prompt的答案构建为监督数据,用于进一步训练预训练模型。经过进一步的预训练,就可以得到SFT模型。

step2:Reward Modeling (RM)

基于 SFT 方法,训练奖励模型以输入提示和响应,并输出标量奖励。标记器将输出从最好到最差进行排名,以构建排名数据集。两个输出之间的损失函数定义如下:

在这里插入图片描述

其中θ_r是奖励模型的参数; x 是prompt,y_w 是 y_w 和 y_l 对中的首选完成; D_c 是人类比较的数据集。

step3:Reinforcement Learning (RL)

通过使用奖励模型,可以使用近端策略优化 (PPO) 对 ChatGPT 进行微调。为了修复公共 NLP 数据集的性能回归,RLHF 将预训练梯度混合到 PPO 梯度中,也称为 PPOptx:

在这里插入图片描述

其中 πRL φ 是学习的 RL 策略,θ_SFT 是监督训练模型,D_pretrain 是预训练分布。 γ是控制预训练梯度强度的预训练损失系数,β是控制KL惩罚强度的KL(Kullback-Leibler)奖励系数。

与以往的数据增广方法相比,ChatGPT 更适合数据增广,原因如下:

• ChatGPT 使用大规模语料库进行预训练,因此具有更广阔的语义表达空间,有助于增强数据扩充的多样性。

• 由于ChatGPT微调阶段引入了大量人工标注样本,ChatGPT生成的语言更符合人类的表达习惯。

• 通过强化学习,ChatGPT 可以比较不同表情的优缺点,确保增强数据具有更高的质量

总的来说,chatgpt的数据增强为样本分类提供了不少样本。

Few-shot Text Classification

应用 BERT 来训练少样本文本分类模型。 BERT顶层的输出特征h可以写为:

在这里插入图片描述

目标函数:小样本学习目标函数由两部分组成:交叉熵和对比学习损失。我们将 z_c 作为最终预测的分类器送入全连接层:

在这里插入图片描述

其中W_c和b_c为可训练参数,将交叉熵作为目标函数之一:

在这里插入图片描述

其中C是输出维度,等于基础数据集和新数据集标签空间的并集,y_d是ground truth。

然后,为了充分利用基础数据集中的先验知识来指导新数据集的学习,引入了对比损失函数,使同一类别的样本表示更加紧凑,不同类别的样本表示更加分离.同一批次样本对之间的对比损失定义如下:

在这里插入图片描述

在基础数据集上的 BERT 微调阶段,仅使用交叉熵作为目标函数。在few-shot learning阶段,结合交叉熵和对比学习损失作为目标函数:

评估指标

使用余弦相似度和 TransRate 作为指标来评估我们的增强数据的完整性(即,特征是否包含有关目标任务的足够信息)和紧凑性(即,每个类的特征是否足够紧凑以实现良好的泛化)。

嵌入相似度

评估数据增强方法生成的样本与实际样本之间的语义相似性,采用生成样本与测试数据集实际样本之间的嵌入相似性。将样本输入到预训练的 BERT 中,并使用 CLS 令牌的表示作为样本嵌入。余弦相似性度量遵循以下约定:

在这里插入图片描述

其中 A 和 B 分别表示比较中的两个嵌入向量。

TransRate

TransRate 是一种量化可迁移性的指标,它基于预训练模型提取的特征与其标签之间的互信息,单次通过目标数据。更高的 TransRate 可能表明数据的可学习性更好。更具体地说,从源任务 T_s 到目标任务 T_t 的知识迁移如下所示:

在这里插入图片描述

实验结果

分类性能比较

在这里插入图片描述

在这里插入图片描述

表 2 和表 3 显示 ChatAug 在 Symptoms 和 PubMed20K 数据集上都达到了最高的准确性。

在 PubMed20K 数据集中,ChatAug 对于 BERT 和具有对比损失的 BERT 均达到 83.5% 的准确率,而在没有数据增强的情况下,准确率分别仅为 79.2% 和 79.8%。在 Symptoms 数据集中,没有数据增强的 BERT 的准确率仅为 63.6%,而有 Contrastive loss 的准确率为 60.6%。 ChatAug 方法将准确率分别显着提高到 88.9% 和 89.9%。

这些结果表明,使用 ChatGPT 进行数据扩充对于增强机器学习模型在各种应用程序中的性能更为有效。

增强数据集的评估

该部分评估了增强数据在潜在空间中的性能,并在下图中可视化了结果。使用余弦相似性和 TransRate 度量评估潜在嵌入。

在这里插入图片描述

横轴表示余弦相似度值和Transrate值,纵轴表示分类准确率。由于嵌入式相似度衡量的是增强数据与测试数据集之间的相似性,相似度越高意味着增强数据与真实数据越匹配,并且具有更高的完整性和紧凑性。由于更高的 TransRate 可能表明数据的可学习性更好,因此更高的 TransRate 意味着具有更高质量的增强数据。

最理想的候选方法应该位于上图中可视化的右上角。如图 所示,ChatAug 在 Symptoms 数据集和 PubMed20K 数据集上的完整性和紧凑性方面都产生了高质量的样本。

总结

虽然上面的结果表示出chatgpt对于数据增强的强大能力,但还是存在局限性。由于缺乏特定领域知识,就可能产生不正确的增强数据。所以,未来的研究中,还是避免不了微调。

所提出的 ChatAug 方法在文本分类中显示出可喜的结果。未来研究的一个有前途的方向是调查 ChatAug 在更广泛的下游任务中的有效性。也就是提高其鲁棒性。

参考文献:

Dai H, Liu Z, Liao W, et al. ChatAug: Leveraging ChatGPT for Text Data Augmentation[J]. arXiv preprint arXiv:2302.13007, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_167.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt_academic学术优化(配置使用教学-保姆级)

一、Anaconda 下载及安装 1.官网下载链接 :www.anaconda.com/ 2.安装 (1)下载完成后,双击exe进行安装 (2)安装完成后,点击Anaconda Navigator,然后点击 CMD.exe Prompt &#xff0…

未来以来,可能是最好ChatGPT学习社群来了!

最近ChatGPT大火,但是大部分人都停留在入门级阶段。但有一点是毫无疑问的,ChatGPT带动的这波浪潮将会彻底改变我们的生活。我最近也一直在研究如何将ChatGPT与大数据结合起来,有进展会与大家分享。今天分享的这个社群也是自己抱有极高期望&am…

用ChatGPT创建虚拟小镇,或许《西部世界》已经成为现实

我们也许真的可以创造一个世界! 你们有没有想过有一天电影《西部世界》可能成为现实,又或许它已经成为现实了。当我们以后玩的游戏不在是程序员的精心设计,而是它们自己的“情绪变化”,那这个世界又会是怎样?可能有一天…

手把手教你使用Python调用 ChatGPT!我不容许你还不知道这么好的东西!

前段时间OpenAI 开放了两个新模型的api接口,专门为聊天而生的 gpt-3.5-turbo 和 gpt-3.5-turbo-0301。 ChatGPT is powered by gpt-3.5-turbo, OpenAI’s most advanced language model. 从上面这句话,我们可以知道现在 chat.openai.com 官网就是由 gpt-…

ChatGPT是如何教你视频去重的

​ 对于很多自媒体和视频剪辑从业者来说,视频去重是家常便饭了,去重有各种各样的方法和教程,但到底平台是如何识别去重的,哪些去重有效,又该选择怎样的去重方式,小编今天为替大家问了问万能的chatgpt&…

Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现(对标 Standford Alpaca)

Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现(对标 Standford Alpaca) 文章目录Alpaca-Lora (羊驼-Lora): 轻量级 ChatGPT 的开源实现(对标 Standford Alpaca)总览前言(与正文可能无关,可以忽略&am…

教你体验目前最火AI - 在craft AI assistant 使用chatGPT

atGPT大火之后,很多人都想体验一把,今天为大家推荐一种免费方式,体验chatGPT同款内核的AI助手。 craft AI assistant Craft 推出的 AI 助手产品 Craft AI Assistant,并且现在就可以使用。根据 Craft 官方介绍,Craft …

ChatGPT非常火,我用它自动编写Python爬虫脚本。结果出乎意料。

前言 都知道最近ChatGPT聊天机器人爆火,我也想方设法注册了账号,据说后面要收费了。 ChatGPT是一种基于大语言模型的生成式AI,换句话说它可以自动生成类似人类语言的文本,把梳理好的有逻辑的答案呈现在你面前,这完全不…

浅谈chatGPT——新必应(bing)版本

年前chatGPT大火的时候,跟风注册了一个账号,在信息检索方面第一直觉就是:这才是我想要的搜索引擎,没有广告,搜索结果总结的很全面到位。然没高兴几天,就发现使用不了了。无论科学上网也好,还是卸…

ChatGPT:从问题解答到赚钱

文 / 韩彬我们往前翻动一下互联网的记忆,不用太久远,停留在2017-2018年就可以了,当时全网讨论最火热的词语叫“娱乐至死”,研究最深的话题叫“阶级跃迁”,批评最多的是某款手游、某短视频平台,说它们杀死了…

十分钟学会QQ集成ChatGPT

前言与环境准备 QQ里面的机器人已经火了很久了,但是每次都是使用的别人的机器人,所以就想看一下网上有没有可以自己实现一个机器人的,查了一些文章然后就发现了chatgpt-mirai-qq-bot,所以就做了一个属于自己的QQ机器人&#xff0…

ChatGPT的主要应用场景例子

ChatGPT是一种基于深度学习技术的大型语言模型,它可以根据用户提供的输入信息,生成自然语言文本或响应。这种技术可以应用于很多领域,下面将详细介绍ChatGPT在以下几个方面的应用:以下是使用过程中的一些应用场景对话记录&#xf…

关于ChatGPT八个技术问题的猜想

作者:张家俊教授单位:中国科学院自动化研究所原文:https://zhuanlan.zhihu.com/p/606478660看到ChatGPT的华丽诞生,心情很复杂,既高兴、惊喜,也感到恐慌,高兴和惊喜的是没有预料到这么快就见证了…

【IDEA集成ChatGPT,开发事半功倍,插件分享】

最近经常在用chatgpt协助编码,一些明确功能的方法或者小需求几乎可以完全依靠chatgpt来完成,发现一个idea中好用的插件,分享下 插件名称就叫ChatGPT,安装后需要一些配置,详细说明如下 1. 使用作者搭建好的代理服务器访问GPT 安装后找到设置Tools -> OpenAI 如图,选择Ope…

中科院ChatGPT Academic开源安装使用过程中的网络代理问题

关于中科院ChatGPT Academic中小白会遇到的问题(windows版)ChatGPT Academic 的项目开源下载安装(这里主要以windows为主)接下来就是大家会经常遇到问题的地方(网络配置和API的输入)这里就是针对小白的与代…

从ChatGPT到ChatCAD:基于大型语言模型的医学图像交互式计算机辅助诊断

基本信息 1. 标题:ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models. 2. 期刊:arXiv 3. IF/JCR/分区:无 4. DOI:arXiv:2302.07257 5. 作者:沈定刚教授团队 1. 导读…

国内首个ChatGPT镜像系统?辅助写代码真方便

hatGPT 美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚…

ChatGPT专业应用:生成新闻稿

正文共 949 字,阅读大约需要 4 分钟 媒体工作者必备技巧,您将在4分钟后获得以下超能力: 生成新闻稿 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim 编辑者…

一点就通——ChatGPT翻译润色的最新简明使用方案

prompt使用推荐 1.翻译prompt 翻译主要有两种,第一种是我们的老朋友厦门大学潘王雨昂(个人主页:pwya.github.io)所编写使用的prompt,第二种是我自己改造的。 1.我希望你能担任英语翻译、拼写校对和修辞改进的角色。…

全网最详细中英文ChatGPT-GPT-4示例文档-TL;DR文档快速总结应用从0到1快速入门——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门TL;DR文档快速总结应用场景Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例其它资料下载ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文…