ChatGPT是什么?为何会引爆国内算力需求?

news/2024/4/26 4:17:01/文章来源:https://blog.csdn.net/Jericho2022/article/details/129175315

过去十年中,通过“深度学习+大算力”从而获得训练模型是实现人工智能的主流技术途径。由于深度学习、数据和算力这三个要素都已具备,全世界掀起了“大炼模型”的热潮,也催生了大批人工智能企业。

大模型是人工智能的发展趋势和未来

大模型,又称为预训练模型、基础模型等,是“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调,就可以完成多个应用场景的任务。

迁移学习是预训练技术的主要思想。当目标场景的数据不足时,首先在数据量庞大 的公开数据集上训练基于深度神经网络的 AI 模型,然后将其迁移到目标场景中,通 过目标场景中的小数据集进行微调,使模型达到需要的性能。在这一过程中,这种在公开数据集训练过的深层网络模型,即为“预训练模型”。使用预训练模型很大程度上降低了下游任务模型对标注数据数量的要求,从而可以很好地处理一些难以获得大量标注数据的新场景。大模型正是人工智能发展的趋势和未来。

ChatGPT是大模型的直接产品

单点工具往往是基于大模型产生的能实际应用的产品。ChatGPT就是在GPT-3.5模型的基础上,产生出的能“对话”的AI系统。

2022年11月30日, OpenAI发布ChatGPT,一款人工智能技术驱动的自然语言处理工具,能够通过学习和理解人类的语言来进行对话和互动,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。ChatGPT对搜索领域或带来巨大冲击。由于ChatGPT能够与用户进行交流明确需求并具备文本生成能力进行回复,其相对于传统搜索引擎在输入端和输出端都具有难以替代的优势。

因而ChatGPT可能对搜索带来一个重大变化:用户将会转向聊天机器人寻求帮助,而不是通过谷歌提供的网站进行过滤。同时,技术上,ChatGPT也可能会降低搜索引擎的门槛。可以说,ChatGPT已经真真切切地改变了搜索领域,对众多科技公司产生了巨大的挑战。

AI大模型里程碑式的胜利

ChatGPT采用监督学习+奖励模型进行语言模型训练。ChatGPT使用来自人类反馈的强化 学习 (RLHF) 来训练该模型。首先使用监督微调训练了一个初始模型:人类AI训练员提供对话,他们在对话中扮演双方——用户和AI助手。其次,ChatGPT让标记者可以访问模型编写的建议,以帮助他们撰写回复。最后,ChatGPT将这个新的对话数据集与原有数据集混合,将其转换为对话格式。具体来看,主要包括三个步骤:

资料来源:OpenAI 官网、华泰研究

  • 1)第一阶段:训练监督策略模型。在ChatGPT模型的训练过程中,需要标记者的参与监 督过程。首先,ChatGPT会从问题数据集中随机抽取若干问题并向模型解释强化学习机制, 其次标记者通过给予特定奖励或惩罚引导AI行为,最后通过监督学习将这一条数据用于微调GPT3.5模型。

  • 2)第二阶段:训练奖励模型。这一阶段的主要目标,在于借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:1、抽样出一个问题及其对应的几个模型输出结果;2、标记员将这几个结果按质量排序;3、将排序后的这套数据结果用于训练奖励模型。

  • 3)第三阶段:采用近端策略优化进行强化学习。近端策略优化(Proximal Policy Optimization)是一种强化学习算法,核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习。具体来说,也就是先通过监督学习策略生成PPO模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代原有的PPO模型参数。往复多次第二阶段和第三阶段,从而得到参数质量越来越高的ChatGPT模型。

ChatGPT离不开大算力支持

大模型训练需要大算力支持,ChatGPT坐拥丰富算力资源。从大模型自身的发展过程来看,参数量的变化是一个非常值得关注的指标。从最早的ResNet、Inception等模型,到如今的GPT,模型参数量不断增长。2018年前后OpenAI先后推出Transformer和GPT-1模型,参数量来到1亿级别。随后谷歌提出3亿参数的BERT模型,参数量再次增长。2019、2020年OpenAI加速追赶,陆续迭代出GPT-2、GPT-3模型,参数量分别为15亿、1750亿,实现模型体量质的飞跃。另一方面,参数运算需要大规模并行计算的支持, 核心难点在于内存交换效率,取决于底层GPU内存容量。

  • OpenAI预计人工智能科学研究要想取得突破,所需要消耗的计算资源每3~4个月就要翻一倍,资金也需要通过指数级增长获得匹配。

  • 在算力方面,GPT-3.5在微软Azure AI超算基础设施(由GPU组成的高带宽集群)上进行训练,总算力消耗约3640PF-days(即每秒一千万亿次计算,运行3640天)。

  • 在大数据方面,GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。

  • 按照量子位给出的数据,将一个大型语言模型(LLM)训练到GPT-3级的成本高达460万美元。

就ChatGPT而言,需要TB级的运算训练库,甚至是P-Flops级的算力。需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行。就目前的服务器处理能力来看,大概是几十到几百台GPU级别的服务器的体量才能够实现,而且需要几日甚至几十日的训练,它的算力需求非常惊人。

国内布局ChatGPT引爆算力需求

随着ChatGPT火遍全球,国内互联网厂商陆续布局ChatGPT类似产品,或将加大核心城市IDC算力供给缺口。据艾瑞咨询,2021年国内IDC行业下游客户占比中,互联网厂商居首位,占比为60%;其次为金融业,占比为20%;政府机关占比10%,位列第三。而目前国内布局ChatGPT类似模型的企业同样以互联网厂商为主,如百度宣布旗下大模型产品“文心一言”将于2022年3月内测、京东于2023年2月10日宣布推出产业版ChatGPT:ChatJD。另一方面,国内互联网厂商大多聚集在北京、上海、深圳、杭州等国内核心城市,在可靠性、安全性及网络延迟等性能要求下,或将加大对本地IDC算力需求,国内核心城市IDC算力供给缺口或将加大。

而与需求相对应的是,我国智能算力规模保持快速增长。IDC报告显示,2022年人工智能算力规模达到每秒268百亿亿次浮点运算,超过通用算力规模,预计未来5年中国人工智能算力规模的年复合增长率将达52.3%。

在此背景下,随着国内厂商相继布局ChatGPT类似模型,算力需求或将持续释放,对于承接ChatGPT引爆的算力需求,思腾合力早有布局。

思腾合力一直专注于人工智能领域,提供云计算、AI服务器、AI工作站、系统集成、产品定制、软件开发、边缘计算等产品和整体解决方案,致力于成为行业领先的人工智能基础架构解决方案商。2021年,思腾合力乘势打造人工智能产业园,承接京津冀一体化乃至全国AI智能高科技企业入驻,通过资源整合、创新创业,打造AI智能产业链聚集区。

公司深耕高性能计算领域多年,已经打造出了一套完全自主软硬件结合的产品生态。全面覆盖云、边、端各层级算力需求,激活数据活力,充分释放数字潜能。对于ChatGPT推动的AI开发范式的转变。思腾合力将充分发挥IT架构优势,提升对数据价值的挖掘能力,支撑新旧范式的结合与转换。

思腾合力将在算力服务上持续精进,充分承接中国ChatGPT产品的算力需求,相辅相成,互相成就,聚力造就中国AI产业的大发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_72876.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker----------day5---安装redis集群

1.哈希取余分区 2亿条记录就是2亿个k,v,我们单机不行必须要分布式多机,假设有3台机器构成一个集群,用户每次读写操作都是根据公式: hash(key) % N个机器台数,计算出哈希值,用来决定数据映射到哪一个节点上。…

浏览器用一行JS代码导出cookies.txt,Python的requests库导入cookies格式化为字典格式

在Python进行爬虫时,如果仅使用requests库打开某个网页,requests的session.cookies保存的cookies信息少得可怜,有时cookies甚至是空白!但浏览器里打开同一个网页,cookies信息非常详尽,比如浏览器的cookies保…

孪生生产线:法兰工厂数据驱动的颠覆性创新

2018 年,世界经济论坛(WEF)携手麦肯锡公司共同倡议并正式启动了全球“灯塔工厂网络项目”(Lighthouse Network),共同遴选率先应用工业革命 4.0 技术实现企业盈利和持续发展的创新者与示范者。这就使得工厂系统需要对各流水线及生产运行成本方面进行多角度…

在DDD中建立领域模型

在前文《当我们谈论DDD时我们在谈论什么》中我们讨论了DDD的战略设计和战术设计。在本文中我们将继续探讨领域模型。 用领域模型表达领域概念 在实际项目中,模型设计者往往过早陷入具体构造块类型的识别,比如实体、聚合、领域服务,而忽略了…

Git(分布式版本控制系统)

提到git了,我们先来说一下什么是git? 1、通俗一点,就是一个人工版本控制器 通过人工的复制行为来保存项目的不同阶段的内容,添加适当的一些描述文字加以区分 繁琐、容易出错 产生大量重复数据 2、什么是版本控制? 版本控制是指对…

动作识别、检测、分割、解析相关数据集介绍

文章目录动作识别UCF101(UCF101 Human Actions dataset)Kinetics (Kinetics Human Action Video Dataset)动作检测 / 时序动作定位CharadesActivityNetMulti-THUMOSUCF101-24IKEA ASM动作分割Breakfast (The Breakfast Actions Dataset)GTEA (Georgia Tech Egocentric Activity…

Python base64和hashlib模块

一、base64模块 base64模块提供了在二进制数据和可打印ASCII字符间编解码的功能,包括 RFC3548中定义的Base16, Base32, Base64, Ascii85, Base85等编码。 base64模块属于标准库,无需进行安装,导入即可使用。 base64模块支持两种接口&#xf…

数组还是队列?yocto-queue 源码告诉你

前言 昨天刚学完 omit 的源码,今天趁着学习源码的热度还没结束,来学习一下另一个我之前未接触过的东西 yocto-queue。 yocto-queue 介绍 那么 yocto-queue 是什么呢?它有什么功能呢?查阅资料可得,对于数据比较多的数…

第10天-商品服务(分层领域模型及规格参数编码实现)

1.分层领域模型规约 DO( Data Object): 此对象与数据库表结构一一对应,通过 DAO 层向上传输数据源对象。DTO( Data Transfer Object):数据传输对象, Service 或 Manager 向外传输的…

【Python】PaddleHub图像分类

目录 一、环境配置: 二、问题需求 三、实验内容 1、准备数据集 2、拆分数据集 3、载入数据集 4、生成数据读取器 5、配置策略 6、组建Finetune Task 7、开始Finetune 8、预测 四、总结: 一、环境配置: 线上环境: 飞桨…

JAVA线程入门简介

线程入门简介什么是程序?什么是进程?什么是线程?单线程与多线程并发与并行线程的使用用java查看有多少个cpu创建线程的两种方式继承Thread类,重写run方法实现Runnable接口,重写run方法多线程机制为社么是start?源码解析什么是程序? 是为完…

字符串转换为二进制-课后程序(JAVA基础案例教程-黑马程序员编著-第五章-课后作业)

【案例5-4】 字符串转换为二进制 【案例介绍】 1.任务描述 本例要求编写一个程序,从键盘录入一个字符串,将字符串转换为二进制数。在转换时,将字符串中的每个字符单独转换为一个二进制数,将所有二进制数连接起来进行输出。 案…

win10下 WSL2安装及配置

目录 一. Windows中WSL2(子系统)安装前提条件 二. Windows中WSL2(子系统)安装步骤(默认安装C盘) 选择包安装模式(选择到其他盘安装) 三. Windows中WSL2(子系统)设置默认root用户登…

35-Golang中的方法

Golang中的方法方法的介绍和使用方法的声明和调用方法的调用和传参机制原理方法的声明(定义)方法注意事项和细节讨论方法和函数的区别方法的介绍和使用 在某些情况下,我们需要声明(定义)方法。比如person结构体,除了有一些字段外(年龄,姓名……

Apollo规划模块代码学习(1): 算法架构原理、运行机制一文详解

文章目录 1、Apllo算法框架原理2、Apollo规划模块概述3、规划模块代码框架1、重要数据结构2、运行机制1、Apllo算法框架原理 Apollo开源自动驾驶平台中,高清地图模块提供了每个在线模块都可以访问的高清地图。感知和定位模块提供了必要的动态环境信息,可以在预测模块中进一步…

优思学院:六西格玛管理的优势有哪些?

六西格玛的优势有哪些呢?以下我们来探讨一下。 一・降低企业整体成本 对企业而言,不良品要么被废弃,要么需要重新加工,或者需要在客户现场维修或更换,这些都会增加企业成本。根据美国的统计数据,执行3σ管…

Socket编程 | TCP服务器 之 并发阻塞模型(多进程实现)

TCP服务器IO模型 之 并发阻塞 1. 引言 在 Linux 环境下多进程的应用很多,其中最主要的就是网络/客户服务器。多进程服务器是当客户有请求时,服务器用一个子进程来处理客户请求。父进程继续等待其它客户的请求。这种方法的优点是当客户有请求时,服务器能及时处理客户,特别是…

docker 部署centos7.9并打包成docker

下载centos基础镜像 docker pull centos:centos7 运行镜像 docker run -itd --name centos-test -p 60001:22 --privileged centos:centos7 /usr/sbin/init 进入容器 docker exec -it ebec90068696 /bin/bash 配置容器信息 安装ssh服务和网络必须软件 yum install net-to…

MongoDB在Windows、Linux、Docker环境下的安装

MongoDB在Windows、Linux、Docker环境下的安装DockerDocker安装远程连接WindowsWindows安装服务相关命令压缩包形式安装Mac、Ubuntu、Centos一键安装MacUbuntucentos源码安装使用Atlas免费MongoDB云数据库申请云数据库连接测试Docker Docker安装 拉取镜像 docker pull mongo…

洛谷P5736 【深基7.例2】质数筛 C语言/C++

【深基7.例2】质数筛 题目描述 输入 nnn 个不大于 10510^5105 的正整数。要求全部储存在数组中,去除掉不是质数的数字,依次输出剩余的质数。 输入格式 第一行输入一个正整数 nnn,表示整数个数。 第二行输入 nnn 个正整数 aia_iai​&…