揭秘ChatGPT预训练数据集

news/2024/5/3 3:40:32/文章来源:https://blog.csdn.net/acelit/article/details/137560441

自大语言模型引领新一代的AI浪潮之后,对于Open AI发布的GPT系列LLM使用的数据集一直是行业内的谜,我们都知道,随着模型的参数量提升,预训练数据的使用量也同步增加,下面就让我们从相关论文和分析从探索GPT-X大模型的预训练数据集。

模型

发布时间

参数量

预训练数据量

GPT-1

2018年6月

1.17亿

约 5GB

GPT-2

2019年2月

15亿

40GB

GPT-3

2020年5月

1750亿

45TB

一、数据集类型

根据Open AI之前对外发布的论文和互联网上各路大神的技术分析(Open AI至今并没有公开训练ChatGPT的相关数据集来源和具体细节),我们了解到GPT系列模型使用的预训练数据集可分为六类,分别是:维基百科、书籍、期刊、Reddit链接、Common Crawl其他数据集

主要数据集大小汇总。以GB为单位。公开的数据以粗体表示。确定的数据以斜体表示。仅原始训练数据集大小。

1、维基百科

维基百科是一个免费的多语言协作在线百科全书,由超过300,000名志愿者组成的社区编写和维护。截至2022年4月,英文版维基百科中有超过640万篇文章,包含超40亿个词。维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。一般来说,重点研究实验室会首先选取它的纯英文过滤版作为数据集。

2、书籍

故事型书籍由小说和非小说两大类组成,主要用于训练模型的故事讲述能力和反应能力,数据集包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等。

3、杂志期刊

预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。这类数据集包括ArXiv和美国国家卫生研究院等。

4、Reddit链接

WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。

5、Common Crawl

Common Crawl是2008年至今的一个网站抓取的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。
 

6、其他数据集

不同于上述类别,这类数据集由GitHub等代码数据集、StackExchange 等对话论坛和视频字幕数据集组成。

二、GPT系列数据集

1、GPT-1数据集

2018年,OpenAI发布了1.17亿参数的GPT-1。在论文中,OpenAI并没有公布模型训练数据集的来源和内容,根据推测GPT-1数据集如下:

GPT-1数据集总结。以GB为单位。公开的数据以粗体表示,确定的数据以斜体表示。

2、GPT-2数据集

2019年,OpenAI发布了拥有15亿参数的语言模型GPT-2。GPT-2论文阐明了所用训练数据集的大小,不过并未说明其内容。而GPT-2模型卡(model card)(在GPT-2 GitHub仓库中)说明了模型内容。

我们可以从GPT-3论文中得到token数量,该论文使用了WebText扩展版本来表示190亿token。据推测,2020年推出的WebText扩展版本拥有12个月的额外数据(additional data),因此它可能比2019年推出的GPT-2版本大25%左右。GPT-2最终的token数量确定为150亿左右。

如GPT-2论文所述,假设模型卡显示链接数时,每个链接都可以被4500万链接总数所除,那WebText的内容在数据集中所占的百分比的详细信息就可以确定。然后可以使用确定的150亿token数量来查找每个域的token数量。请注意,在可用的前1,000个域中,此处仅显示前50个域。

WebText: 前50个域。 公开的数据以粗体表示,确定的数据以斜体表示。

GPT-2模型最终的数据集总结分析如下:

GPT-2数据集总结。 公开的数据以粗体表示,确定的数据以斜体表示。


 

3、GPT-3数据集

GPT-3模型由OpenAI于2020年发布。论文阐明了所用训练数据集的token数量,但训练数据集的内容和大小尚不清楚(Common Crawl的数据集大小除外)。

GPT-3数据集。 公开的数据以粗体表示,确定的数据以斜体表示。

  • GPT-3:关于Books1和Books2数据集的分析

特别值得关注的是,在OpenAI的GPT-3论文中,并未公开Books1数据集(120亿token)和Books2数据集(550亿token)的大小和来源。关于这两个数据集的来源人们提出了几个假设,包括来自LibGen18和Sci-Hub的类似数据集,不过这两个数据集常以TB为计,大到无法匹配。

  • GPT-3:Books1

GPT-3使用的Books1数据集不可能与GPT-1使用的BookCorpus数据集相同,原因在于Books1的数据集更大,达120亿token。在一篇引用的论文中就提及GPT-1使用的BookCorpus数据集拥有9.848亿个词,但这可能只相当于13亿token(984.8字x 1.3字的token乘数)。

通过标准化项目古腾堡语料库(SPGC),Books1有可能与古腾堡项目保持一致性。SPGC是一种开放式科学方法,被用于古腾堡项目完整的PG数据的精选(curated)版本。SPGC包含120亿个token,大约为21GB。

  • GPT-3:Books2

Books2(550亿token)可能与Bibliotik保持一致,并由EleutherA收集该来源的数据,组成数据集,使其成为The Pile v1的一部分。Bibliotik版本为100.96GB[22],其确定的token数仅为250亿,低于Books2公开的550亿。然而,使用SPGC的‘每字节token数’比率(大约为1:1.75),Bibliotik的token数和大小将更接近于Books2。


GPT-3模型的最终数据集总结分析如下:

GPT-3数据集总结。公开的数据以粗体表示,确定的数据以斜体表示。

Reference:https://lifearchitect.ai/whats-in-my-ai/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1045725.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

地理信息系统(ArcGIS)在水文水资源、水环境中的应用

刘老师(副教授):来自北京重点高校资深专家,长期从事水资源与水环境、流域污染控制与管理、非点源模拟与控制、环境信息系统开发、环境遥感与GIS应用等领域的研究,发表多篇Sci论文、具有资深的技术底蕴和专业背景。 1、…

wps可以打钩的框框

方法一: 输入2611,按下altx 方法二: R 选中后->开始->字体wingdings字体

自动驾驶硬件系统-激光雷达(Lidar)测量模型

自动驾驶硬件系统-激光雷达(Lidar)测量模型 激光雷达(Lidar, Light Detection And Ranging)是Google系自动驾驶技术路线广泛应用的硬件传感器。 附赠自动驾驶学习资料和量产经验:链接 1、激光雷达(Lidar)的工作原理 通过持续不断的发射激光束,激光束遇…

winform入门篇3 -- 手工创建窗口

手工创建窗口 Form, 窗口 可以手工创建一个窗口类 class MyFrom : Form { } 1.创建一个windows 窗体应用 这样就自动创建了一个窗体应用Form1 现在不使用这个自动创建的,手工写一个 2.手动创建 1.删除Form1.cs 2.添加 新建MyForm 类 让该类继承Form 在构造…

爬虫 新闻网站 以湖南法治报为例(含详细注释) V1.0

目标网站:湖南法治报 爬取目的:为了获取某一地区更全面的在湖南法治报已发布的宣传新闻稿,同时也让自己的工作更便捷 环境:Pycharm2021,Python3.10, 安装的包:requests,csv&#xff…

Unity类银河恶魔城学习记录12-8 p130 Skill Tree UI源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili UI.cs using UnityEngine;public class UI : MonoBehaviour {[SerializeFi…

Python:如何对FY3D TSHS的数据集进行重投影并输出为TIFF文件以及批量镶嵌插值?

完整代码见 Github:https://github.com/ChaoQiezi/read_fy3d_tshs,由于代码中注释较为详细,因此博客中部分操作一笔带过。 01 FY3D的HDF转TIFF 1.1 数据集说明 FY3D TSHS数据集是二级产品(TSHS即MWTS/MWHS 融合大气温湿度廓线/稳定度指数/…

【智能算法】省时方便,智能算法统计指标——一键运行~

目录 1.常用统计指标2.参数统计检验3.结果展示4.自定义修改测试框架 1.常用统计指标 测试智能算法性能时,常常会用到以下5种常用指标,简单不赘述: 最优值、最差值、均值、中位数、标准差 2.参数统计检验 单纯依靠常用统计指标说服力不足&…

结构型模式--3.组合模式【草帽大船团】

1. 好大一棵树 路飞在德雷斯罗萨打败多弗朗明哥之后,一些被路飞解救的海贼团自愿加入路飞麾下,自此组成了草帽大船团,旗下有7为船长,分别是: 俊美海贼团75人 巴托俱乐部56人 八宝水军1000人 艾迪欧海贼团4人 咚塔塔海…

notification+Android笔记

notification通知应用UI之外的消息并显示即推送; NotificationManager负责管理通知,例如显示取消,删除等; import android.app.Notification; import android.app.NotificationChannel; import android.app.NotificationManager;…

【SpringBoot3】Bean管理

1.Bean扫描 1.1传统Spring 标签&#xff1a;<context:component-scan base-package"com. example "/>注解&#xff1a;ComponentScan(basePackages "com.example") 1.2SpringBoot SpringBoot默认扫描启动类所在的包及其子包 2.Bean注册 如果要注…

水牛社:互联网赚钱秘籍,免费项目,你真敢要吗?

免费是最贵的。真正理解并使用这句话的只有少数人&#xff0c;今天在网上分享一下免费项目背后的逻辑&#xff0c;抛开现象&#xff0c; 本质是最重要的。 我从事互联网工作15年。不管是过去还是现在&#xff0c;总有人喜欢问有没有免费项目&#xff1f; 其实我平时懒得回答…

如何使用 ChatGPT

原文&#xff1a;How To Use Chatgpt 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 总体介绍 在人工智能和在线创业不断扩张的世界中&#xff0c;ChatGPT 的出现为寻求利用 AI 推动在线成功的个人和企业开辟了令人兴奋的新途径。本书《如何使用 ChatGPT&#xff1a;…

【Linux】进程初步理解

个人主页 &#xff1a; zxctscl 如有转载请先通知 文章目录 1. 冯诺依曼体系结构1.1 认识冯诺依曼体系结构1.2 存储金字塔 2. 操作系统2.1 概念2.2 结构2.3 操作系统的管理 3. 进程3.1 进程描述3.2 Linux下的PCB 4. task_struct本身内部属性4.1 启动4.2 进程的创建方式4.2.1 父…

3 突破编程_前端_SVG(rect 矩形)

1 rect 元素的基本属性和用法 在SVG中&#xff0c;<rect> 元素用于创建矩形。 <rect> 元素有一些基本的属性&#xff0c;可以用来定义矩形的形状、位置、颜色等。以下是这些属性的详细解释&#xff1a; x 和 y &#xff1a;这两个属性定义矩形左上角的位置。 x …

106. 跑步锻炼(结果填空)

public class Main { public static void main(String[] args) { int startYear 2000; int startMonth 1; int startDay 1; // 周六 int endYear 2020; int endMonth 10; int endDay 1; // 周四 int totalDistance 0; // 计算开始日期到结束日期之间的每一天 …

应急响应-挖矿脚本检测指南威胁情报样本定性文件清除入口修复

一、演示案例-挖矿样本-Win&Linux-危害&定性 危害&#xff1a;CPU拉满&#xff0c;网络阻塞&#xff0c;服务器卡顿等 定性&#xff1a;威胁情报平台上传解析分析&#xff0c;文件配置查看等windows样本 linux样本 二、演示案例-Linux-Web安全漏洞导致挖矿事件 某公司…

一例简单的文件夹病毒的分析

概述 这是一个典型的文件夹病毒&#xff0c;使用xp时代的文件夹图标&#xff0c;通过可移动存储介质传播&#xff0c;会向http://fionades.com/ABIUS/setup.exe下载恶意载荷执行。 其病毒母体只是一个加载器&#xff0c;会在内存是解密加载一个反射型的dll&#xff0c;主要的…

【C++】缺省参数和函数重载

目录 1.缺省参数 1.1缺省参数的定义 1.2 缺省参数的简单应用 1.3 缺省参数分类&#xff1a;全缺省参数和半缺省参数 1.3.1半缺省参数 1.3.2全缺省参数 3.缺省参数注意事项&#xff1a;缺省参数不能在函数声明和定义中同时出现 4.函数重载 4.1 函数重载概念 4.2 函数参数类型…

2024年32款数据分析工具分五大类总览

数据分析工具在现代商业和科学中扮演着不可或缺的角色&#xff0c;为组织和个人提供了深入洞察和明智决策的能力。这些工具不仅能够处理大规模的数据集&#xff0c;还能通过强大的分析和可视化功能揭示隐藏在数据背后的模式和趋势。数据分析工具软件主要可以划分为以下五个类别…