学习大语言模型(LLM),从这里开始

news/2024/4/21 12:26:38/文章来源:https://blog.csdn.net/epubit17/article/details/136380505

在见识了ChatGPT的各种强大能力后,不少 NLP一线从业人员很自然地想到,以后开发者只要借助 ChatGPT,就可以做到现在大部分NLP工程师在做的事,比如文本分类、实体抽取、文本推理等。甚至随着大语言模型(largelanguagemodel,LLM)能力的不断提升,它们可能做得比NLP 工程师都要好。

如何利用大语言模型做一些NLP任务或服务?这本关于大语言模型的开发指南《ChatGPT原理与应用开发》来啦!

ChatGPT原理与应用开发

Datawhale的开源大模型实战教程,透彻解读4类常见NLP任务的系统设计,书-课-代码仓库全方位学习,每个人都可以用大语言模型轻松做出自己的AI产品。

本书主要面向非算法、有一定编程基础、对人工智能和 ChatGPT(或其他类似的大语言模型)感兴趣,并乐意使用大语言模型接口开发相关应用的读者。当然,部分内容不需要任何编程经验也可以学习。通过本书进一步降低大语言模型的使用 门槛,让更多对人工智能和大语言模型感兴趣的非 NLP 工程师或算法专业人士, 能够无障碍地使用大语言模型并创造价值。希望新的技术突破能够更多地改善我 们所处的世界。

本书内容

本书内容聚焦于如何使用大语言模型开发新的功能和应用,一共有 8 章内 容,分别如下。

第 1 章 基础知识 —大语言模型背后,主要介绍了与 ChatGPT 相关 的 NLP 领域的基础知识和原理,具体内容包括自然语言背景、Token 与 Embedding、语言模型、Transformer、GPT和RLHF 等。掌握了这部分知 识,就能大概知道 ChatGPT 或其他大语言模型是怎么回事。

第 2 章 相似匹配—万物皆可 Embedding, 主要介绍了文本表示, 以 及与文本匹配相关的任务和应用。这是 NLP 领域(以及其他一些算法领 域)最常用的技术,具体内容包括相似匹配基础、接口使用,以及简单 问答、聚类任务和推荐应用。

第 3 章 句词分类—句子 Token 都是类别,主要介绍了 NLP 领域最常 见的任务—分类。这其实也是人类最基本的认知方式(比如用男或女、 老或少、勤奋、乐于助人等简单的标签化方式具象化某个个体),具体内 容包括句词分类基础、接口使用,以及文档问答、模型微调和智能对话 应用。

第 4 章 文本生成—超越理解更智能,主要介绍了与文本生成技术相 关的任务,具体内容包括文本摘要、文本纠错和机器翻译。文本生成技 术在实际场景中的使用相对少一些,也相对独立一些。

第 5 章 复杂推理—更加像人一样思考,主要介绍了如何使用大语言 模型做复杂的逻辑推理任务。这部分内容在现实中的应用很少,但在新 的产品形态上有很多想象空间。

第 6 章 工程实践—真实场景大不同,主要介绍了如何在真实业务上 使用大语言模型。我们不再仅仅构建一个简单的 Demo(demonstration 的 简写,指示例、样品),而是要将大语言模型真正用在产品开发上。我们 会给出一些需要特别注意的事项,以帮助读者更高效地构建应用。

第 7 章 局限与不足—工具不是万能的,主要介绍了 ChatGPT(或其 他类似的大语言模型)的缺陷或不擅长的地方,包括事实性错误、实时 更新、性能瓶颈等方面。我们在畅想和利用 ChatGPT 或其他类似的大语言模型做各种人工智能应用时,也应该了解其不擅长的地方:一方面要 对其有更加全面的认识;另一方面,反向思维有时候也能想象出好的应 用或服务。

第 8 章 商业应用—LLM是星辰大海,可以把该章当作一篇调研报告 来阅读,主要针对工具应用和行业应用两大方面展开,期望能够给读者 更多启迪,帮助大家构思更好的应用或服务。

本书有两个基本的设计理念。

各章相对独立,彼此之间没有明显的依赖关系。这既体现在内容上,也 体现在设计上。读者可以灵活选取自己感兴趣的章节阅读。

以“任务”为核心。我们始终强调“任务”多于“工具”,ChatGPT 是目 前大语言模型领域总体效果最好的,但未来一定会有其他大语言模型出 现。不过,只要我们理解了要做的事情,理解了系统设计,工具就能为 我们所用。

阅读建议

通过上面的介绍,相信读者应该对本书有了初步了解。下面主要从创作者的 角度简单说明如何更好地使用本书。

第一,我们期望读者能够亲自动手完成一个应用或服务的 Demo 。光看不做 在编程领域是绝对不行的,实践出真知,脑子想、嘴上说与亲自干完全不一样。 而且,万事开头难,做了第一个,后面再做类似的就会相对容易一些。

第二,我们期望读者能在学习过程中多思考,既可以与自己工作的实际业务 相结合,也可以天马行空地构想。我们非常期待读者能分享自己的想法,众人拾 柴火焰高,个人能想到的太少了,但这么多人一起想,也许能够改变一个行业。

第三,我们期望读者能对 NLP 领域的常见任务有个基本的认识。我们并非 想要读者都成为 NLP 工程师,阅读本书也不会让你成为 NLP 工程师。但我们期望读者能够利用 ChatGPT (或其他类似的大语言模型)提供的接口来完成 NLP 任务,并提供相关服务。期望读者在阅读完本书后都具备这样的能力。

第四,洛克菲勒说过:真正重要的不在于有多少知识,而在于如何使用现有 的知识。知识只是潜在的力量,只有将其付诸应用,而且是建设性的应用,才会 显示出其威力。本书内容围绕着任务展开,很多设计思路和细节其实可以应用到 多个领域。我们再次强调,期望读者能够多实践,多应用,尤其是与自己的工作 多结合。

第五,由于创作团队精力有限,本书难免有疏漏甚至错误,我们期望读者在 学习的同时,也能积极给我们提建议,我们将不胜感激。

ChatGPT 火爆背后蕴含着一个基本道理:人工智能能力得到了极大突破— 大模型,尤其是大语言模型的能力有目共睹,未来只会变得更强。世界上唯一不 变的就是变化。适应变化、拥抱变化、喜欢变化。“天行健,君子以自强不息。” 我们相信未来会有越来越多的大模型出现。人工智能正在逐渐平民化,将来每个 人都可以利用大语言模型轻松地做出自己的人工智能产品。我们正在经历一个伟 大的时代,我们相信这是一个值得每个人全身心拥抱的时代,我们更加相信这个 世界必将因此而变得更加美好。

详细目录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_997175.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣刷题Days11第二题--141. 环形链表(js)

目录 1,题目 2,代码 2.1快慢指针 2.2,哈希表 3,学习与总结 3.1自己尝试写快慢指针 反思 1,题目 给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达&…

时光机关:探秘Java中的Timer和TimerTask

欢迎来到我的博客,代码的世界里,每一行都是一个故事 时光机关:探秘Java中的Timer和TimerTask 前言Timer和TimerTask的基本概念Timer:TimerTask:为何它们是 Java 中任务调度的得力工具: Timer的使用方法创建…

python中的文件操作2

文件遍历 在Python中,遍历文件通常指的是逐行读取文件中的内容。这种方式对于处理大型文件特别有用,因为它不需要一次性将整个文件加载到内存中。下面是几种常见的遍历文件内容的方法: 1. 使用with语句和for循环 这是最推荐的方式&#xf…

appium解锁android真机系统的屏幕

在使用appium进行app自动化操作的过程中,经常遇到的第一个难题就是如何解锁系统屏幕,也就是亮屏解锁。 实际上解决办法如下:在desired_capabilities中增加两个参数unlockType和unlockKey,类似的示例代码如下: desire…

外包干了2年,技术退步明显

先说一下自己的情况,研究生,19年进入广州某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试&#xf…

Stable Diffusion 模型分享:Realistic Stock Photo(真实的库存照片)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八下载地址模型介绍

利用Python爬取高德地图全国地铁站点信息

利用Python中的requests库进行地铁站点信息的获取,同时将数据保存在本机excel中 # 首先引入所需要的包 import requests from bs4 import BeautifulSoup import pandas as pd import json# 发送 GET 请求获取网页内容 url http://map.amap.com/subway/index.html response r…

vue3页面内容切换(类似登录、注册内容切换)

一、内容描述 页面有俩块内容,分别是验证码登录页面内容,账号密码登录页面内容。有俩种处理方式,一个是写俩个页面跳转使用,还有一种是一个页面俩个内容,切换的只是不同的内容,相同的内容保留。一般都是选择…

比肩Gen-2,全新开源文生视频模型

著名开源平台Stability.ai在官网宣布,推出全新文生视频的扩散模型Stable Video Diffusion,已开源了该项目并公布了论文。 据悉,用户通过文本或图像就能生成高精准,14帧和25帧的短视频。目前,Stable Video Diffusion处…

【常见索引使用】⭐️Mysql中索引的类型以及使用方式和失效场景

目录 一、前言 二、数据准备 三、索引的分类 四、索引示例 示例1、主键索引(Primary Key Index)与 唯一索引(Unique Index) 示例2、前缀索引(Prefix Index) 示例3、联合索引(复合索引&am…

Unity3D学习之XLua实践——背包系统

文章目录 1 前言2 新建工程导入必要资源2.1 AB包设置2.2 C# 脚本2.3 VSCode 的环境搭建 3 面板拼凑3.1 主面板拼凑3.2 背包面板拼凑3.3 格子复合组件拼凑3.4 常用类别名准备3.5 数据准备3.5.1 图集准备3.5.2 json3.5.3 打AB包 4 Lua读取json表及准备玩家数据5 主面板逻辑6 背包…

什么是工业协议网关?作用是什么?

在工业自动化和智能制造领域,数据的采集、传输和处理是实现设备监控、远程控制和优化的关键。而工业协议网关,作为连接工业设备与上层管理系统的桥梁,发挥着至关重要的作用。今天,我们就来深入解析一下HiWoo Box这一工业协议网关的…

【three.js】22. Imported Models导入模型

22. Imported Models导入模型 介绍 Three.js 可以让你创建很多原始几何体,但是当涉及到更复杂的形状时,我们最好使用专用的 3D 软件建模。 在本课中,我们将使用已经制作好的模型,但我们将在以后的课程中学习如何完全在 3D 软件中…

《汇编语言》第3版 (王爽)第10章检测点解析

第10章 检测点 检测点10.1:补全程序,实现从内存1000:0000处开始执行指令。 解析: 我们知道retf指令是用栈中的数据,同时修改CS和IP寄存器中的内容,实现远转移,而且是先出栈的数据放入IP中,后出栈的数据放入…

IPSEC VPN 网关模式实验

要求:FW1与FW3建立IPSEC通道,保证10.0.2.0/24网段能访问192.168.1.0/24网段 因为FW1与FW3都处于边界,所以使用网关部署模式来建立IPSEC VPN FW1 这里选择主模式跟隧道模式 FW3与FW1配置类似,与FW1的源目地址反过来,…

[Unity实战]使用NavMeshAgent做玩家移动

其实除了Character Controller, Rigidbody,我们还可以使用NavMeshAgent去做。这么做的好处是能避免玩家去莫名其妙的地方(毕竟基于烘焙过的导航网格),一般常见于元宇宙应用和mmo。 根据Unity手册,NavMeshAgent 也有和…

STM32 (1)

1.基本信息 stm32是由ST公司生产的一种32位微控制器(单片机)。 1.1 各种型号 stm32是32位单片机的总称,有多种不同的系列。 32即用32个比特位表示一个地址,寻址范围:0x00000000 --0xffffffff (4GB) 1.2 存储密度 …

网络编程作业day6

数据库操作的增、删、改完成 #include <myhead.h>//查询的回调函数 int callback(void* data,int count,char** argv, char** columnName) {//count是字段数//argv是字段内容//columnName是字段名称for(int i0;i<count;i) {printf("%s%s\n", columnName[…

【unity实战】事件(Event)的基本实战使用

文章目录 最终效果前言一、素材二、角色金币交互1. 拾取金币2. 显示金币数UI 完结 最终效果 前言 之前我们介绍过委托的用法&#xff0c;具体可以跳转&#xff1a;【unity小技巧】委托&#xff08;Delegate&#xff09;的基础使用和介绍 这期来讲讲事件&#xff0c;使用你会发…

Java线程状态解析:多线程编程指南

&#x1f31f; 欢迎来到 我的博客&#xff01; &#x1f308; &#x1f4a1; 探索未知, 分享知识 !&#x1f4ab; 本文目录 &#x1f31f;1. 引言&#x1f31f;2. Java线程的生命周期&#x1f4a1;2.1 <font color "skyblue">新建&#xff08;New&#xff09;&…