【码银送书第十三期】《ChatGPT原理与架构》

news/2024/4/16 14:30:12/文章来源:https://blog.csdn.net/weixin_53197693/article/details/136485875

OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景,在多项专业和学术基准测试中表现出的智力水平,不仅接近甚至有时超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的欢迎,被科技界誉为人工智能领域的新里程碑。

 

人们在为生成式人工智能所带来的多模态内容创作效率的提升而欢呼时,常常低估ChatGPT的推理能力。这种能力使ChatGPT不仅能作为新一代人机交互的核心,还能作为智能代理来构建自动化和半自动化的工作流程,甚至使它能与工业控制或机器人领域相结合,引发深刻的社会变革。

 

许多人低估了这种变革的影响力。以当前研发和商业应用的迭代速度来看,预计在未来三至五年内,这种变革将逐渐渗透到人类生活和生产的各个方面,极大地提升现有的生产力。若要追溯上一个被称为“巨大技术变革”的时代,很多人都会毫不犹豫地说是互联网开创期。这次变革也将重塑内容生产相关的商业模式,改变现有的工作方式,甚至推动生产方式的变革。当然,这还需要依赖下一代大语言模型在内容输出的可控性方面的突破。

 

e84046f81400378217422f708bdb8d3f.png

ChatGPT原理与架构:

大模型的预训练、迁移和中间件编程

程戈 著

大模型领域技术专家和布道者实践经验总结

阿里、Google等企业多位大模型技术专家联袂推荐

 

 

内容简介

这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。

第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识;
第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进;
第6~8章从底层技术实现的角度讲解了大模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现;
第9~10章首先详细讲解了大模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程;
第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大模型时代具身智能的可行路线。

 

作者简介

 

程戈
      博士生导师,湘潭大学计算机学院·网络空间安全学院教授,湘潭大学技术转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字治理湖南省重点实验室副主任,CCF计算法学会执委。

      大模型领域技术专家和布道者,作为两项科技部国家重点研发子课题的负责人,与成都数之联等多家企业合作推动人工智能在司法领域的落地,带领团队开发了JusticeGPT司法大模型,不同于其他的以提升司法领域知识问答能力为核心的司法大模型,该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。

      连续创业者,先后创立湘潭安道致胜信息科技有限公司等多家企业,曾经作为共同创始人加盟美国WiFi Free llc. ,开发了WiFi Free、WiFi Analyzer?等项目,其中WiFi Free在2014到2015年是Google Play市场相关WiFi分享类应用下载的前三名。作为技术顾问,先后服务于北京捷通华声等多家企业,提供知识表示学习的技术解决方案,为某知名私募开发了基于深度学习的股票趋势预测系统,成为该私募公司的主要量化工具。  

 

专家推荐

 

作者结合科研和实践经验,用朴实无华的语言,扎实、严谨地剖析了ChatGPT的技术原理和大模型的关键技术。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者,都会从本书中获益匪浅,深刻领会这项里程碑式的技术成果。
—— 陈峰 北京滴普科技有限公司合伙人&《ClickHouse性能之巅》作者


创业不易,比较幸运的是,我在北大做研究时,和团队一起成功地开发了ChatLaw——国内首个在法律领域应用的大模型。本书的作者和团队也成功训练出法律行业的大模型,这本书分享了他们的成功经验。如果你对类似ChatGPT大模型的训练感兴趣,那么本书将是你不容错过的力作。
—— 崔家熙 ChatLaw


本书不仅能让你站在巨人的肩膀上俯瞰大语言模型的全貌,还带领你深入洞察其背后的原理与架构设计。不仅是一本理论与实践并重的参考书,更是一部引领人工智能领域创新发展的启示录。它将为你揭示大语言模型如何改变我们的生活,并展示如何在这一领域挖掘无限可能。
—— 黄剑 Google工程师/抖音“剑哥聊技术”博主(仅代表个人观点,与任何公司无关)


本书系统地剖析了支撑ChatGPT的关键技术,包括Transformer模型、注意力机制、生成式预训练等理论基础,以及模型优化、低算力部署、人机交互等关键问题。全书内容丰富翔实,图文并茂,任何想要真正理解ChatGPT的读者都能从中获益。作者结合科研和实践经验,用平实的语言娓娓道来,让这个高深的主题变得触手可及。
—— 刘聪 南京云问科技首席算法架构师/知乎博主:@刘聪NLP/《ChatGPT原理与实践》作者


这是一本细致入微地剖析ChatGPT内在技术原理的佳作。内容严谨,结构清晰,层层深入地剖析了大语言模型背后的关键技术,如Transformer、注意力机制、生成式预训练等。这是一本质量上乘的技术专著,它不仅系统全面,而且深入浅出,将ChatGPT这一复杂系统娓娓道来,让读者获益匪浅。
—— 刘树春 阿里巴巴高级算法专家

对于任何渴望深入了解大语言模型的人来说,本书是一本无价之宝。它是进入大语言模型训练和微调世界的敲门砖,同时也是您在人工智能领域取得成就的助推器。通过本书,您将掌握大语言模型的工作原理、技术挑战与发展趋势,从而为自己在人工智能时代的角色定位提供有力支持。
—— 占冰强 AIGCLINK发起人/行行AI合伙人

 

读者对象

 

  • 人工智能领域的产品经理。对于希望在自家产品中引入AI功能的产品经理来说,了解ChatGPT等大语言模型的基本原理和运行机制是至关重要的。从本书中,他们可以学习大语言模型的设计思想、构造方式,以及如何将这些模型整合到产品中去。他们也可以借此更好地理解产品的性能瓶颈,从而进行更为精确的产品规划。

  • 人工智能相关专业的研究人员。AI研究者可以将本书作为一本深入了解大语言模型的教科书。无论是Transformer模型的细节,还是GPT模型训练和优化的技巧,书中都进行了详细的介绍。更重要的是,书中还探讨了一些最前沿的研究领域,比如人类反馈强化学习、指令自举标注算法等。

  • 大规模数据处理和分析的工程师。对于面临如何高效处理大规模数据、如何构建分布式训练架构等问题的工程师来说,本书可以提供许多宝贵的建议和思路。例如,第6章对数据处理和分布式训练模式进行了深入的讨论。

  • AI技术的爱好者和使用者。如果你是一个AI技术的爱好者,或者是一个善于运用技术改善生活的人,本书同样适合你。书中对大语言模型的介绍通俗易懂,可以让你对这个强大的技术有个全面的了解。此外,书中还提供了许多实用的使用技巧和案例,可以将它们直接应用到你的生活或工作中去。

 

 

直播预告

 

3月7日周四19:00,大模型领域技术专家,湖南国家应用数学中心副主任,湘潭市京东智能城市与大数据研究院副院长,湘潭大学计算机学院.网络空间学院教授 程戈老师与您分享“世界模型改变世界:从GPT到Sora”,点击预约观看!

 

将在03月07日 19:00 直播

7e984c0de8cc4f1fae689fe61c0376c5.jpeg

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_999383.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4 等大语言模型(LLM)如何彻底改变客户服务

GPT-4革命:如何用AI技术重新定义SEO策略 在当今快节奏的数字时代,客户服务不再局限于传统的电话线或电子邮件支持。 得益于人工智能 (AI) 和自然语言模型 (NLM)(例如 GPT-4)的进步,客户服务正在经历革命性的转变。 在这…

Web3 之路:构建开放、透明的数字生态系统

随着区块链技术的迅速发展,Web3正在成为数字世界的新引擎,重新定义着我们的生活和工作方式。在这个数字化的时代,我们目睹着一个全新的网络生态正在逐渐成形,其中开放性和透明性是其核心特征。让我们深入探讨,Web3如何…

HttpResponse响应模块设计与实现(http模块三)

目录 类功能 类定义 类实现 编译测试 类功能 类定义 // HttpResponse响应模块功能设计 class HttpResponse { private:int _statu;bool _redirect_flag; // 重定向标志std::string _body;std::string _redirect_url; // 重定向地址std::unordered_map<std::string, std…

WinCE USB驱动架构及术语明析

一、层式驱动的概念。 WinCE驱动多为层式驱动&#xff0c;分为MDD和PDD两层。 MDD包含通用的驱动代码&#xff0c;向操作系统提供了驱动接口&#xff0c;该层代码调用PDD功能访问硬件。 PDD部分包含与硬件平台相关的特殊代码&#xff0c;不具有通用性。 之所以要分层&#xff0…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Marquee)

跑马灯组件&#xff0c;用于滚动展示一段单行文本。仅当文本内容宽度超过跑马灯组件宽度时滚动&#xff0c;不超过时不滚动。 说明&#xff1a; 该组件从API Version 8开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 子组件 无 接口 Ma…

Swift SwiftUI 学习笔记 2024

Swift SwiftUI 学习笔记 2024 一、资源 视频资源 StanfordUnivercity 公开课 2023: https://cs193p.sites.stanford.edu/2023 教程 Swift 初识&#xff1a;基础语法&#xff1a;https://docs.swift.org/swift-book/documentation/the-swift-programming-language/guidedtour/…

Java基础 - 8 - 算法、正则表达式、异常

一. 算法 什么是算法&#xff1f; 解决某个实际问题的过程和方法 学习算法的技巧&#xff1f; 先搞清楚算法的流程&#xff0c;再直接去推敲如何写算法 1.1 排序算法 1.1.1 冒泡排序 每次从数组中找出最大值放在数组的后面去 public class demo {public static void main(S…

Python+更改镜像源下载库+PyCharm+汉化+第一个项目配置

文章目录 一、Python二、更改镜像源下载库三、PyCharm四、汉化五、第一个项目配置 2024年3月5日 操作环境&#xff1a; Win11-23H2 Python-3.12.2 PyCharm-2023.3.4 一、Python https://www.python.org/ 点击Download&#xff0c;查看对应的版本&#xff08; prerelease…

Springboot+vue的物业管理系统(有报告)。Javaee项目,springboot vue前后端分离项目。

演示视频&#xff1a; Springbootvue的物业管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot vue前后端分离项目。 项目介绍&#xff1a; 本文设计了一个基于Springbootvue的物业管理系统&#xff0c;采用M&#xff08;model&#xff09;V&#xff…

最简k8s部署(AWS Load Balancer Controller使用)

问题 我需要在k8s集群里面部署springboot服务&#xff0c;通过k8s ingress访问集群内部的springboot服务&#xff0c;应该怎么做&#xff1f; 这里假设已经准备好k8s集群&#xff0c;而且也准备好springboot服务的运行镜像了。这里我们将精力放在k8s服务编排上面。 一图胜千言…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Image)

Image为图片组件&#xff0c;常用于在应用中显示图片。Image支持加载PixelMap、ResourceStr和DrawableDescriptor类型的数据源&#xff0c;支持png、jpg、jpeg、bmp、svg、webp和gif类型的图片格式。 说明&#xff1a; 该组件从API Version 7开始支持。后续版本如有新增内容&am…

【Web安全】htaccess攻击

.htaccess攻击 文章目录 .htaccess攻击1. .htaccess文件2. 常见用法2.1. 自定义出错界面2.2. 强制文件执行方式2.3. PCRE绕过正则匹配2.4. php_value修改php设定2.5. php_value文件包含2.6. 把htaccess当作php 1. .htaccess文件 .htaccess是Apache网络服务器一个配置文件&#…

系统提示mfc100u.dll丢失或错误的解决方法分享

mfc100u.dll是Microsoft Foundation Classes (MFC)库中的一个关键动态链接库文件。 mfc100u.dll文件是Microsoft Foundation Classes (MFC)库的一部分&#xff0c;这是一个为软件开发者提供的一系列类和功能&#xff0c;旨在简化Windows应用程序的开发过程。这个特定的文件包含…

酷开科技以消费者需求为导向冲刺OTT行业的星辰大海

通过大屏营销、互动营销等方式&#xff0c;提升品牌认知度和市场竞争力。酷开科技始终坚持以消费者的需求为导向&#xff0c;致力于为品牌方和消费者搭建高效、准确的沟通桥梁&#xff0c;开创OTT大屏营销新纪元。 伴随技术发展&#xff0c;智能电视已经从“尝鲜”变成了主流产…

GO语言并发编程

点击名片关注 阿尘blog&#xff0c;一起学习&#xff0c;一起成长 1 Goroutine和channel Go语言通过goroutine和channel来实现并发编程。Goroutine是Go语言中轻量级的线程&#xff0c;它由Go运行时&#xff08;runtime&#xff09;管理&#xff0c;并且拥有自己的栈空间。Gorou…

mac本地启动sentinel

启动Sentinel控制台 1&#xff09;下载sentinel控制台jar包 https://github.com/alibaba/Sentinel/releases/download/1.8.6/sentinel-dashboard-1.8.6.jar 2&#xff09;启动sentinel控制台 使用如下命令启动控制台&#xff1a; java -Dserver.port8080 -Dcsp.sentinel.d…

flink实战--Flink任务资源自动化优化

背景 在生产环境Flink任务资源是用户在实时平台端进行配置,用户本身对于实时任务具体配置多少资源经验较少,所以存在用户资源配置较多,但实际使用不到的情形。比如一个 Flink 任务实际上 4 个并发能够满足业务处理需求,结果用户配置了 16 个并发,这种情况会导致实时计算资…

Ajax+Axios+前后端分离+YApi+Vue-ElementUI组件+Vue路由+nginx【全详解】

目录 一.Ajax技术 二. Axios 三.前后台分离开发介绍 四. YAPI 五.前端工程化 六.vue工程的目录结构 七.Vue项目核心文件 八.Vue组件库ElementUI AboutView.vue最终代码 AboutView.vue最终代码 九.Vue路由 十.案例 十一.nginx介绍 一.Ajax技术 1.Ajax概述 Ajax: 全…

最新基于R语言lavaan结构方程模型(SEM)技术

原文链接&#xff1a;最新基于R语言lavaan结构方程模型&#xff08;SEM&#xff09;技术https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247596681&idx4&sn08753dd4d3e7bc492d750c0f06bba1b2&chksmfa823b6ecdf5b278ca0b94213391b5a222d1776743609cd3d14…

git分布式管理-头歌实验合并远程分支、rebase、储藏

一、合并远程分支merge 任务描述 在软件开发中&#xff0c;通常会在版本库中创建多个不同的分支进行开发。例如&#xff0c;最基本的可以有一个测试版分支和一个正式版分支&#xff0c;其中测试版分支用来完成最新功能代码的开发与测试&#xff0c;正式版则用于管理即将发布的版…