2023年4月的12篇AI论文推荐

news/2024/5/6 14:24:30/文章来源:https://blog.csdn.net/m0_46510245/article/details/130126011

GPT-4发布仅仅三周后,就已经随处可见了。本月的论文推荐除了GPT-4以外还包括、语言模型的应用、扩散模型、计算机视觉、视频生成、推荐系统和神经辐射场。

1、GPT-4 Technical Report

Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang.

GPT-4 在上个月一直是无可争议的明星。这篇评估报告包含了 GPT-4 实验的样本和操作。论文中一个有意思的事情是在 TikZ (LaTeX) 中绘制独角兽的能力如何随着时间的推移而改进,而模型仍在积极开发中。

这份长达 155 页的评估报告涵盖了广泛的主题,例如多模式能力、数学推理、编码、人际互动和社会影响。作者认为 GPT-4 表现出的一些行为可以被标记为一般智能,同时承认其局限性和警告。

2、Larger language models do in-context learning differently

Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma.

大型语言模型中复杂语境学习的出现引起了大家的兴趣。本文深入研究了大型语言模型中一些小众但很有意思的功能,这些功能在小型语言模型中是不存在的。

大型模型拥有独特的能力,小型模型根本无法复制,无论投入多少数据和精力。例如,大型模型可以在提示内学习翻转标签和学习新的映射,例如反转句子的情感标签(例如,积极的句子被标记为消极的)。

  • 大型模型学习翻转标签,而小型模型则坚持预先训练好的知识,继续将正标记为正,将负标记为负。
  • 语义无关标签(SUL)随着规模的扩大而出现,其中模型用非单词的标记标记事物。
  • 指令调优模型加强了语义先验的使用和学习输入标签映射的能力,但是更强调前者。

3、Reflexion: an autonomous agent with dynamic memory and self-reflection

Noah Shinn, Beck Labash, Ashwin Gopinath.

将 LM 嵌入自我改进循环的技术非常流行!我们人类并不总是在第一次尝试时就把事情做好。为了解决问题,我们通常依赖于尝试一条推理路径,然后在它完全展开后验证它的有效性。如果没有,我们会尝试纠正它,直到整件事情都变得有意义。而传统自回归 LM 没有这样的能力。

研究人员发现,为 LM 配备类似的机制可以提高它们的性能。简单地说,提示一个 LM,然后要求它反思它的输出并在必要时进行更正。这可以嵌入到一个环境中,LM可以知道一个答案或操作是否正确,然后尝试改进它,直到正确为止。

结果还是不错的

其他类似的论文还有《Self-Refine: Iterative refine with Self-Feedback》(更专注于指令遵循而不是问题解决),和《Language Models can Solve Computer Tasks》(专注于做面向目标的规划),它们遵循类似的“生成-批评-修复”反馈循环,主要基于启发式和模板化的自然语言,这也可以证明,现有的lm可以被视为一个新的平台,在其上构建东西,我们只是触及了可能的表面。

4、Foundation Models for Decision Making: Problems, Methods, and Opportunities

Sherry Yang, Ofir Nachum, Yilun Du, Jason Wei, Pieter Abbeel, Dale Schuurmans.

LM 似乎是一种非常有用的灰盒计算引擎。它们可以应用于语言以外的各种事物,例如决策。 作者考虑了在可以采取行动并观察奖励的环境中嵌入基础模型的一般情况。他们确定了 FM 可用于决策环境的几个角度:作为生成模型、表示学习者、代理或环境。

与强化学习 (RL) 中使用的特定于任务的交互式数据集相比,用于训练 FM 的视觉和语言领域的广泛数据集通常在模式和结构上有所不同。例如,视频数据集通常缺乏明确的动作和奖励标签,而这些是强化学习的重要组成部分。因为大多数用于决策模型的 FM 被概念化为通过行为克隆(如离线 RL)训练马尔可夫决策过程(MDP),这可能导致整个动作状态空间的覆盖率很低,理论上可以与 RL 微调,但最终在实践中很难。本文强调了弥合这一差距以增强 LM 在决策任务中的适用性的必要性。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e392Jovw-1681355548210)(null)]

5、GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock.

我们经常听到关于人工智能将对就业市场产生影响的热门话题。这篇论文试图为各种职业量化这一点。

通过观察历史上主流未来主义者在预测哪些事情难以自动化以及 AI 将首先学习做什么方面表现得多么糟糕来作为序言。然后量化了使用 LM 的不同任务的生产力收益。

我们的分析表明,通过获得 LLM,美国大约 15% 的工人任务可以在相同质量水平下更快地完成。当合并构建在 LLM 之上的软件和工具时,这一份额增加到所有任务的 47% 到 56%。

论文里定义完成繁重工作的关键概念是“Exposure”,它被定义为访问 LLM 系统可以将人类执行特定任务所花费的时间减少至少 50% 的程度。不过,Exposure的影响仍不清楚:提高生产率和增加工资?减少可用职位?都算作Exposure但是具体哪一个还没有结论,论文里有一些数据表明在不同任务中使用 LM 辅助性能有多大的相关性。

6、Erasing Concepts from Diffusion Models

Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau.

高级的AICG最令人兴奋的地方在于它将如何实现全新的人机交互范式。本文提出了一种在使用扩散模型编辑图像时进行这种交互的方法。

作者介绍了一种称为擦除稳定扩散 (ESD) 的技术,该技术仅使用“不需要的”概念描述来微调模型的参数,而无需额外的训练数据。这种特别的方法可以很容易地集成到任何预训练的扩散模型中。例如,给定一张有树的田野图像,您可以简单地提示“擦除树”,输出将是没有树的“相同”图像。

ESD的主要目标是利用模型自身的知识,而不需要额外的数据就可以从文本到图像扩散模型中删除相应的内容。该方法采用潜在扩散模型(LDM),关注潜在空间而不是像素空间,并使用[稳定扩散]进行所有的实验。该技术针对3种类型的删除进行了优化:艺术效果(例如,取消梵高风格的过滤器),明确的内容和对象。下图为这些方法的例子:

7、Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi.

我们已经看到一些文本到“视频”的作品,例如 Meta 的Make-a-video(它更像是 GIF)。

仅使用现成的文本到图像模型并且不需要进一步训练的文本到视频呢?Text2Video-Zero 提出了一种将现有的文本到图像合成扩散模型转换为文本到视频模型的方法。这种方法可以使用文本提示或提示结合姿势或边缘的指导,甚至是指令指导的视频编辑来生成零样本的视频生成。 它完全无需训练,不需要强大的计算能力或多个 GPU,让每个人都可以生成视频。

还是使用扩散模型将图像与文本对齐的潜在表示空间中进行“运动”。虽然微动嵌入会在生成的视频中产生不连贯的运动,但这项工作提出了两种新颖的后处理技术,通过在潜在代码中编码运动动态并使用跨帧注意力重新编辑每个帧的自注意力来强制执行时间生成的一致性(参见 下图)。结果是在没有任何视频特定训练的情况下创建的连贯短视频。

8、LERF: Language Embedded Radiance Fields

Justin Kerr, Chung Min Kim, Ken Goldberg, Angjoo Kanazawa, Matthew Tancik.

将nerf与现成的CLIP嵌入相结合,以获得优秀的语义分割和语言基础。LERF通过沿训练射线利用CLIP嵌入,并在多个训练图像上使用多尺度CLIP特征来监督它们,从而优化密集的多尺度3D语言场。这种优化可以为语言查询实时、交互式地提取3D相关性图。LERF支持长尾、开放词汇表的跨卷分层查询,而不依赖于区域提议、掩码或微调。

与2D CLIP嵌入相比,3D提供了对遮挡和视点变化的鲁棒性,以及更清晰的外观,更好地符合3D场景结构。多尺度监督和DINO正则化提高了对象边界和整体质量。

作者还展示了LERF如何与ChatGPT无缝集成,允许用户使用自然语言与3D世界进行交互。一个示例演示了ChatGPT如何为清理咖啡溢出提供语言查询(见下图)。这将很快被集成到流行的Nerfstudio研究代码库中。

9、Resurrecting Recurrent Neural Networks for Long Sequences

Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, cagar Gulcehre, Razvan Pascanu, Soham De。

RNN 隐藏的潜力?Transformer 的注意力机制的计算复杂度意味着可能需要一定程度的重复性才能实现真正的远程依赖建模。递归神经网络 (RNN) 在深度学习中对序列数据建模至关重要,但众所周知,它存在梯度消失和爆炸问题,而 LSTM(某种程度上)在过去解决了这些问题。尽管如此,它们仍无法与Transformer 的显式自注意力相提并论。最近推出的 S4 是一种深度状态空间模型 (SSM),它克服了其中的一些问题,并在超长距离推理任务上取得了卓越的性能。本文证明,通过对深度传统 RNN 进行微小更改,线性循环单元 (LRU) 模型可以在LRA ( Long Range Arena) 基准测试中与深度 SSM 的性能和效率相媲美。

线性循环单元 (LRU) 是本文的核心架构贡献。传统 RNN 的修改包括线性化(去除循环连接中的非线性)、对角化(允许并行化和更快的训练)、稳定的指数参数化和归一化。

这篇论文再次展示了神经网络中的许多进步依赖于巧妙的优化,包括使训练更快、稳定和可扩展;而不是聪明的架构选择。虽然这不会很快取代Transformer ,但当需要线性推理的复杂性时,长距离的递归仍然是有用的。

10、 Recommender Systems with Generative Retrieval

Shashank Rajput et al.

还记得可微搜索索引(DSI)吗?现在他又开始折腾推荐系统了😒。

可微分搜索索引使用transformer 来记忆文档id,并根据查询自回归地生成它们,消除了对传统索引的需要。基于这一想法,研究人员提出了TIGER,一种基于生成检索的推荐模型。TIGER为每件商品分配唯一的语义ID,然后训练检索模型来预测用户将使用之前商品ID的下一件商品的语义ID。其实就是对这些id进行自回归建模。

与DSI基础实验不同的是,在这种情况下,id在语义上是相关的:它们使用条目的标题和文本描述来使用Sentence-T5对它们进行编码,然后应用残差量化以获得每个项目的量化表示。

TIGER在亚马逊产品评论数据集的召回和NDCG方面击败了以前的最先进技术。尽管与DSI相关的缺点(向预训练的模型中添加新项目并不容易),但这种新的生成式检索范式确实提供了一些优势,例如推荐不常见的项目(改善冷启动问题),并通过调整生成的温度来生成多样化的推荐。

11、Segment Anything

Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick

meta发布的号称分割届的GPT,SAM已经了解了物体的一般概念,这种理解可以在不需要额外训练的情况下对不熟悉的物体和图像进行零样本泛化。

目测效果很不错,这个论文我在研究他的源代码,所以后续还有更详细的应用和解释。有兴趣的可以先看看他的demo网站

12、Generative Agents: Interactive Simulacra of Human Behavior

Joon Sung Park, Joseph C. O’Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein

这篇论文展示了让生成式AI具备记忆、规划、沟通和反思的能力,让其像人类一样自然活动、社交、成长。论文使用的是GPT-3.5-turbo版本的ChatGPT,也就是说理论上可以为ChatGPT加上记忆、反思和规划等更高阶的人类能力,可有效提升大语言模型输出能力、稳定性和降低风险,同时在游戏领域有着巨大的应用空间。

1)AI自己建立了记忆体系并定期进行深层次反思,从而获得对新鲜事物的见解;

2)AI之间建立了关系并记住了彼此;

3)AI之间学会了相互协调;

4)AI之间学会了共享信息;

5)AI具备了定制和修改计划的能力。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Izfbp33J-1681355548195)(null)]

有兴趣的可以看看演示非常有意思

https://avoid.overfit.cn/post/8d6f2aa6f8eb4d8583ee9f2b4ba1e834

作者:Sergi Castella i Sapé

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_285881.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【2023 年第十三届 MathorCup 高校数学建模挑战赛】A 题 量子计算机在信用评分卡组合优化中的应用 详细建模过程解析及代码实现

【2023 年第十三届 MathorCup 高校数学建模挑战赛】A 题 量子计算机在信用评分卡组合优化中的应用 1 题目 在银行信用卡或相关的贷款等业务中,对客户授信之前,需要先通过 各种审核规则对客户的信用等级进行评定,通过评定后的客户才能获得信 …

【Ubuntu安装选项】

关于Ubuntu系统安装选项 [TOC](关于Ubuntu系统安装选项) 安装选项选择 一、*Try or Install Ubuntu 二、Ubunru (safe graphics) 三、OEM install (for manufacturers) 四、Test memory 总结 安装选项选择 在安装Ubuntu系统时会有四个选项,搜…

( “树” 之 DFS) 226. 翻转二叉树 ——【Leetcode每日一题】

226. 翻转二叉树 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点。 示例 1: 输入:root [4,2,7,1,3,6,9] 输出:[4,7,2,9,6,3,1] 示例 2: 输入:root [2,1,3] 输出:[…

[ 应急响应基础篇 ] 使用 Autoruns 启动项分析工具分析启动项(附Autoruns安装教程)

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

[PTA] 插松枝(C++,模拟)

人造松枝加工场的工人需要将各种尺寸的塑料松针插到松枝干上,做成大大小小的松枝。他们的工作流程(并不)是这样的: 每人手边有一只小盒子,初始状态为空。每人面前有用不完的松枝干和一个推送器,每次推送一…

【软考数据库】第一章 计算机系统基础知识

目录 1.1 计算机系统 1.1.1 计算机硬件组成 1.1.2 中央处理单元 1.1.3 数据表示 1.1.4 校验码 1.2 计算机体系结构 1.2.1 体系结构分类 1.2.2 指令系统存 1.2.3 储系系统 1.2.4 输入/输出技术 1.2.5 总线结构…

CF204A-Little Elephant and Interval(数位)

CF204A-Little Elephant and Interval 考虑 [1,abcde‾][1,\overline{abcde}][1,abcde] 的情况: 位置集合数量个位1 ~ 99十位11 ~ 999百位{xux‾∣x∈[1,9],u∈[0,9]}\{\overline{xux} | x\in [1,9],u\in [0,9]\}{xux∣x∈[1,9],u∈[0,9]}91019\times 10^19101千位…

一站式智慧仓储物流方案,免费帮你一屏搞定,领导不重用你都难!

在江苏无锡,菜鸟已经通过柔性自动化技术搭建了亚洲规模最大的无人仓,超过1000台无人车可以快速组合、分拆作业,生产效率可提升一倍多,大大节省了人工成本。智慧仓储物流作为物流的重要一环,也吸引了广泛关注。2022年双…

【图数据挖掘】— 子图同构问题、单射函数和双射函数、同构(isomorphic)和同态(homomorphism)

子图同构问题 子图同构(Subgraph Isomorphism)是指在图论中,两个图之间是否存在一种关系,使得其中一个图的顶点集合和边集合可以通过对应的方式映射到另一个图的顶点集合和边集合上,且保持原来的边和顶点的关系不变。…

设计模式之中介者模式(C++)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 一、中介者模式是什么? 中介者模式是一种行为型的软件设计模式,也称为仲裁者模式,顾名思义&am…

基于SpringBoot的大学生体质测试管理系统源码数据库论文

目录 目录 1 绪 论 1.1系统背景介绍 1.2课题研究的目的和意义 1.3系统的研究现状 1.4系统实现的功能 1.5系统的特点 2 开发工具和技术 2.1 B/S体系结构 2.2 Java语言简介 2.3 SpringBoot框架 2.4 MySQL简介 3 系统需求分析 3.1 系统可行性分析及目的…

爱智EdgerOS之深入解析在爱智应用中如何使用Socket.IO轻松实现双向通信

一、什么是 Socket.IO? Socket.IO 是一个基于事件通信的实时应用程序框架,它在即时通讯、通知和消息推送,实时分析等场景中有广泛的应用。Socket.IO 包括两个部分: 在 Server 端的模块(JSRE 已提供了 socket.io 模块&…

UPA/URA双极化天线的协方差矩阵结构

文章目录UPA的阵列响应向量(暂不考虑双极化天线)UPA阵列响应:从单极化天线到双极化天线UPA双极化天线的协方差矩阵结构参考文献UPA的阵列响应向量(暂不考虑双极化天线) 下图形象描述了UPA阵列的接收信号 UPA阵列的水平…

已知原根多项式和寄存器初始值时求LFSR的简单例子

线性反馈移位寄存器(LFSR)是一种用于生成伪随机数序列的简单结构。在这里,我们有一个四项原根多项式 p(x)1x0x21102p(x) 1 x 0x^2 110_2p(x)1x0x21102​ 和初始值 S0100S_0 100S0​100。我们将使用 LFSR 动作过程来生成一个伪随机序列。…

SpringBoot【运维实用篇】---- SpringBoot程序的打包与运行

SpringBoot【运维实用篇】---- SpringBoot程序的打包与运行程序打包程序运行SpringBoot程序打包失败处理命令行启动常见问题及解决方案刚开始做开发学习的小伙伴可能在有一个知识上面有错误的认知,我们天天写程序是在Idea下写的,运行也是在Idea下运行的。…

vue——项目中加载public中的静态资源——技能提升

应用场景 在写后台管理系统的时候,遇到一个需求就是关于热力图的功能,需要加载不同的页面,这个页面需要每日更新一次,所以请求页面html的最终解决办法就是:将页面html对应的文件夹,放在public文件夹中&…

Zephyr RTOS应用开发(nrf5340)

目录 概述 开发环境安装 创建一个新的Zephyr应用 构建应用并刷写到开发板 概述 Zephyr™项目是一个采用Apache 2.0协议许可,Linux基金会托管的协作项目。针对低功耗、小型内存微处理器设备开发的物联网嵌入式小型、可扩展的实时操作系统,支持多种硬件…

(八)【软件设计师】计算机系统—浮点数

浮点数 浮点数。当机器字长为n时,定点数的补码和移码可表示2的n方个数,而其原码和反码只能表示2"-1个数(0的表示占用了两个编码),因此,定点数所能表示的数值范围比较小,在运算中很容易因结果超出范围而…

JavaScript -- 对象

1. 概念 对象是 JavaScript 数据类型的一种,可以理解为是一种无序的数据集合 2. 对象的使用 2.1 对象的声明 let 对象名 {} let 对象名 new Object() 2.2 属性和方法 数据描述性的信息称为属性,如人的姓名、身高、年龄、性别等,一般是…

前端项目-12-个人中心-二级路由配置-导航守卫-懒加载

目录 1-个人中心 1.1-个人中心路由注册 1.2-拆分二级路由组件 1.3-动态渲染我的订单页面 2-导航守卫优化 2.1-用户未登录导航守卫优化 2.2-路由独享 2.3-组件内守卫 3-懒加载 3.1-图片懒加载 3.2-路由懒加载 4-map文件处理 1-个人中心 需求:当用户点击支…