AI_Papers周刊:第三期

news/2024/4/26 7:54:18/文章来源:https://blog.csdn.net/muye_IT/article/details/129225546

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

2023.02.20—2023.02.26

文摘词云

Top Papers

Subjects: cs.CL  

1.LLaMA: Open and Efficient Foundation Language Models

标题:LLaMA:开放高效的基础语言模型

作者:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux

文章链接:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

        我们介绍了 LLaMA,这是一组基础语言模型,参数范围从 7B 到 65B。我们在数万亿个令牌上训练我们的模型,并表明可以仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),而 LLaMA-65B 可与最佳模型 Chinchilla70B 和 PaLM-540B 竞争。我们将所有模型发布给研究社区。

上榜理由

这是Meta在2.24最新发布的大模型LLaMA:

  • 与 Chinchilla、PaLM 或 GPT-3 不同,它只使用公开可用的数据集,使我们的工作与开源兼容且可重现,而大多数现有模型依赖于非公开可用或未记录的数据。

  • 所有的模型都接受了至少 1T tokens的训练,远远超过通常在这个规模上使用的tokens。有趣的是,即使在 1T tokens之后,7B 模型仍在改进。

  • 在常识推理、闭卷问答和阅读理解方面,LLaMA-65B 在几乎所有基准测试中都优于 Chinchilla 70B 和 PaLM 540B。

  • LLaMA-65B 在 GSM8k 上的表现优于 Minerva-62B,尽管它尚未在任何数学数据集上进行微调。在 MATH 基准测试中,它优于 PaLM-62B(但远低于 Minerva-62B)

  • 在代码生成基准测试中,LLaMA-62B 优于 cont-PaLM (62B) 和 PaLM-540B。

  • 据官方:开源、一块GPU就能跑,1/10参数量打败GPT-3。

2.FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation

标题:FRMT:小样本区域感知机器翻译的基准

作者:Parker Riley, Timothy Dozat, Jan A. Botha, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat, Noah Constant

文章链接:https://arxiv.org/abs/2210.00193

项目代码:https://github.com/google-research/google-research/tree/master/frmt

        我们展示了 FRMT,这是一种新的数据集和评估基准,适用于 Few-shot Region-aware Machine Translation,一种以风格为目标的翻译。该数据集包括从英语到葡萄牙语和普通话两种区域变体的专业翻译。选择源文档是为了能够对感兴趣的现象进行详细分析,包括词汇上不同的术语和干扰项。我们探索 FRMT 的自动评估指标,并在区域匹配和不匹配的评级场景中验证它们与专家人类评估的相关性。最后,我们为这项任务提供了一些基线模型,并为研究人员如何训练、评估和比较他们自己的模型提供了指导方针。

Subjects: cs.CV

1.Composer: Creative and Controllable Image Synthesis with Composable Conditions

标题:Composer:具有可组合条件的创造性和可控图像合成

作者:Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou

文章链接:hhttps://arxiv.org/abs/2302.09778

项目代码:https://damo-vilab.github.io/composer-page/

        我们最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但可控性有限。这项工作提供了一种新一代范例,可以灵活控制输出图像,例如空间布局和调色板,同时保持合成质量和模型创造力。以组合性为核心思想,我们首先将图像分解为具有代表性的因素,然后以所有这些因素为条件训练扩散模型对输入进行重组。在推理阶段,丰富的中间表示作为可组合元素工作,为可定制的内容创建带来巨大的设计空间(即,与分解因子的数量成指数比例)。值得注意的是,我们称之为 Composer 的方法支持各种级别的条件,例如作为全局信息的文本描述、作为局部指导的深度图和草图、用于低级细节的颜色直方图等。除了提高可控性外,我们确认 Composer 是一个通用框架,无需重新训练即可促进各种经典生成任务。

上榜理由

这是阿里巴巴团队在2.20日发表的最新扩散模型Composer:

  • Composer 是一个大型(50 亿个参数)可控扩散模型,在数十亿(文本、图像)对上进行训练.

  • 它可以根据文本和深度、蒙面图像和文本、草图、深度和嵌入、文本和调色板等等生成图像,也可以修复草图、重新配置图像、颜色插值、 特定区域的图像编辑,在图片翻译、风格转移、姿势转移、虚拟试穿经典的任务上也表现的很好。

现在扩散模型的发展简直可以用飞速来形容,每天都有令人瞠目结舌的成果发布。

2.Adding Conditional Control to Text-to-Image Diffusion Models

标题:向文本到图像扩散模型添加条件控制

作者:Lvmin Zhang, Maneesh Agrawala

文章链接:https://arxiv.org/abs/2302.05543

项目代码:https://github.com/lllyasviel/controlnet

摘要:

        深度生成模型在文本到图像合成方面取得了令人瞩目的成果。然而,当前的文本到图像模型通常会生成与文本提示不充分对齐的图像。我们提出了一种使用人类反馈来对齐此类模型的微调方法,包括三个阶段。首先,我们从一组不同的文本提示中收集评估模型输出对齐的人类反馈。然后,我们使用人工标记的图像文本数据集来训练预测人类反馈的奖励函数。最后,文本到图像模型通过最大化奖励加权似然来改进图像文本对齐进行微调。我们的方法比预训练模型更准确地生成具有指定颜色、计数和背景的对象。我们还分析了几种设计选择,发现对此类设计选择进行仔细调查对于平衡对齐保真度权衡非常重要。我们的结果证明了从人类反馈中学习以显着改进文本到图像模型的潜力。

        我们提出了一种神经网络结构 ControlNet,用于控制预训练的大型扩散模型以支持额外的输入条件。ControlNet 以端到端的方式学习特定于任务的条件,即使训练数据集很小 (< 50k),学习也很稳健。此外,训练 ControlNet 与微调扩散模型一样快,并且可以在个人设备上训练模型。或者,如果可以使用强大的计算集群,该模型可以扩展到大量(数百万到数十亿)数据。我们报告说,像 Stable Diffusion 这样的大型扩散模型可以通过 ControlNets 进行增强,以启用边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法,并进一步促进相关应用。

       PS:效果非常的amazing的一篇成果,ControlNet可能会改变 AI 图像生成游戏规则。

3.Designing an Encoder for Fast Personalization of Text-to-Image Models

标题:设计用于快速个性化文本到图像模型的编码器

作者:Rinon Gal, Moab Arar, Yuval Atzmon, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or

文章链接:https://arxiv.org/abs/2302.04761

项目代码:https://tuning-encoder.github.io/

        文本到图像的个性化旨在教授预训练的扩散模型来推理新颖的、用户提供的概念,并将它们嵌入到由自然语言提示引导的新场景中。然而,当前的个性化方法与冗长的训练时间、高存储要求或身份丢失作斗争。为了克服这些限制,我们提出了一种基于编码器的域调整方法。我们的主要见解是,通过欠拟合来自给定领域的大量概念,我们可以提高泛化能力并创建一个更适合快速添加来自同一领域的新概念的模型。具体来说,我们采用了两个组件:首先,一个编码器,它将来自给定域的目标概念的单个图像作为输入,例如一个特定的面孔,并学习将其映射到表示该概念的词嵌入中。其次,一组用于文本到图像模型的正则化权重偏移,学习如何有效地摄取额外的概念。这些组件共同用于指导未知概念的学习,使我们能够仅使用一张图像和少至 5 个训练步骤来个性化模型——将个性化从几十分钟加速到几秒钟,同时保持质量。

4.MERF: Memory-Efficient Radiance Fields for Real-time View Synthesis in Unbounded Scenes

标题:MERF:用于无界场景中实时视图合成的内存高效辐射场

作者:Christian Reiser, Richard Szeliski, Dor Verbin, Pratul P. Srinivasan, Ben Mildenhall, Andreas Geiger, Jonathan T. Barron, Peter Hedman

文章链接:https://arxiv.org/abs/2302.04761

项目代码:t https://merf42.github.io

        神经辐射场可实现最先进的逼真视图合成。然而,现有的辐射场表示对于实时渲染来说计算量太大,或者需要太多内存才能扩展到大型场景。我们提出了一种内存高效辐射场 (MERF) 表示,可在浏览器中实现大规模场景的实时渲染。MERF 使用稀疏特征网格和高分辨率 2D 特征平面的组合减少了先验稀疏体积辐射场的内存消耗。为了支持大规模无界场景,我们引入了一种新颖的收缩函数,可将场景坐标映射到有界体积中,同时仍允许有效的光线盒相交。我们设计了一个无损程序,用于将训练期间使用的参数化烘焙到一个模型中,该模型可实现实时渲染,同时仍保留体积辐射场的逼真视图合成质量。

Notable Papers

1.DisCO: Portrait Distortion Correction with Perspective-Aware 3D GANs

标题:DisCO:使用透视感知 3D GAN 进行人像失真校正

文章链接:https://arxiv.org/abs/2302.12253

摘要:

        在近距离拍摄的特写面部图像通常会出现透视失真,导致夸张的面部特征和不自然/不吸引人的外观。我们提出了一种简单而有效的方法来校正单个特写脸部中的透视失真。我们首先通过联合优化相机内部/外部参数和面部潜在代码,使用透视扭曲的输入面部图像执行 GAN 反演。为了解决联合优化的模糊性,我们开发了焦距重新参数化、优化调度和几何正则化。以适当的焦距和相机距离重新渲染肖像可以有效地纠正这些失真并产生更自然的效果。我们的实验表明,我们的方法在视觉质量方面优于以前的方法。我们展示了许多示例,以验证我们的方法在野外人像照片上的适用性。

2.Improving Adaptive Conformal Prediction Using Self-Supervised Learning

标题:使用自监督学习改进自适应适形预测

文章链接:https://arxiv.org/abs/2302.12238

摘要:

        共形预测是一种强大的无分布不确定性量化工具,可通过有限样本保证建立有效的预测区间。为了产生也适应每个实例难度的有效区间,一种常见的方法是在单独的校准集上计算归一化的不合格分数。自我监督学习已在许多领域得到有效利用,以学习下游预测变量的一般表示。然而,除了模型预训练和表示学习之外,自我监督的使用在很大程度上还没有被探索过。在这项工作中,我们研究了自我监督借口任务如何提高共形回归器的质量,特别是通过提高共形区间的适应性。我们在现有预测模型的基础上训练一个具有自我监督借口任务的辅助模型,并将自我监督错误作为附加特征来估计不合格分数。我们使用关于保形预测区间的效率(宽度)、不足和超额的合成和真实数据,凭经验证明了附加信息的好处。

3.Aligning Text-to-Image Models using Human Feedback

标题:使用人工反馈对齐文本到图像模型

文章链接:https://arxiv.org/abs/2302.12192

摘要:

        深度生成模型在文本到图像合成方面取得了令人瞩目的成果。然而,当前的文本到图像模型通常会生成与文本提示不充分对齐的图像。我们提出了一种使用人类反馈来对齐此类模型的微调方法,包括三个阶段。首先,我们从一组不同的文本提示中收集评估模型输出对齐的人类反馈。然后,我们使用人工标记的图像文本数据集来训练预测人类反馈的奖励函数。最后,文本到图像模型通过最大化奖励加权似然来改进图像文本对齐进行微调。我们的方法比预训练模型更准确地生成具有指定颜色、计数和背景的对象。我们还分析了几种设计选择,发现对此类设计选择进行仔细调查对于平衡对齐保真度权衡非常重要。我们的结果证明了从人类反馈中学习以显着改进文本到图像模型的潜力。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_74312.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

zookeeper集群的搭建,菜鸟升级大神必看

一、下载安装zookeeperhttp://archive.apache.org/dist/zookeeper/下载最新版本2.8.1http://archive.apache.org/dist/zookeeper/zookeeper-3.8.1/二、上传安装包到服务器上并且解压&#xff0c;重命名tar -zxvf apache-zookeeper-3.8.1-bin.tar.gzmv apache-zookeeper-3.8.1-b…

Python安装教程(附带安装包)

首先&#xff0c;打开python安装包的下载地址&#xff0c;https://www.python.org/downloads/&#xff0c;会有些慢 点击downloads中的windows 左侧是稳定的版本&#xff0c;我这边下的是3.8的&#xff0c;不想去官网下载的可以直接用我下载的这个3.8版本&#xff0c;https://…

WebGPU学习(4)---使用 UniformBuffer

接下来让我们使用 UniformBuffer。UniformBuffer 是一个只读内存区域&#xff0c;可以在着色器上访问。 这次&#xff0c;我们将传递给着色器的矩阵存储在 UniformBuffer 中。演示示例 1.在顶点着色器中的 UniformBuffer 这次我们在顶点着色器里定义一个名为Uniforms的新结构体…

《爆肝整理》保姆级系列教程python接口自动化(二十三)--unittest断言——上(详解)

简介 在测试用例中&#xff0c;执行完测试用例后&#xff0c;最后一步是判断测试结果是 pass 还是 fail&#xff0c;自动化测试脚本里面一般把这种生成测试结果的方法称为断言&#xff08;assert&#xff09;。用 unittest 组件测试用例的时候&#xff0c;断言的方法还是很多的…

Zebec社区上线ZIP-2(地平线升级行动)提案

此前&#xff0c;Zebec社区在上线了投票治理系统Zebec Node后&#xff0c;曾上线了首个提案ZIP-1&#xff0c;对Nautilus Chain的推出进行了投票&#xff0c;作为Zebec Chain上线前的“先行链”&#xff0c;该链得到了社区用户的欢迎&#xff0c;投通过票的比例高达98.3%。而Na…

JSP网上书店系统用myeclipse定制开发mysql数据库B/S模式java编程计算机网页

一、源码特点 JSP 网上书店系统 是一套完善的系统源码&#xff0c;对理解JSP java 编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。研究的基本内容是基于网上书店系 统&#xff0c;使用JSP作为页面开发工具。Web服务的运…

【Python工具篇】Anaconda中安装python2和python3以及在pycharm中使用

背景&#xff1a;已经安装好anaconda、python3、pycharm&#xff0c;因为项目使用的是python2语法&#xff0c;所以需要在anaconda中安装python2&#xff0c;并在pycharm中使用&#xff0c;下面给出步骤。 1. 打开cmd或者是Anaconda Prompt。 下面是anaconda prompt. 2. 查…

【Java学习】初识Java

JavaSEJava初识1. Java简介2.Java环境的安装与配置3. 开发第一个Java程序Java初识 学前疑问&#xff1a;&#xff08;带着疑问去学习&#xff0c;在学习中自行探索答案&#xff09; Java是什么&#xff1f;能做什么&#xff1f;发展前景如何&#xff1f;需要学习哪些内容&…

mysql数据库表的创建与查看

mysql数据库表的创建与查看 一、mysql查看 查看所有数据库 show databases切换数据库 use 数据库名查看该数据库下所有的表名 show tables查看表的结构 desc 表名二、mysq创建 创建数据库 create database 数据库名;创建数据库设置编码 drop database if EXISTS dbname; creat…

终端软件架构说

目录 零&#xff1a;前言 一&#xff0c;基于服务的架构 二&#xff0c;基于多进程多线程的架构 三&#xff0c;以数据为中心的架构 四&#xff0c;类Android的分层架构设计 五&#xff0c;总结 零&#xff1a;前言 谈到架构&#xff0c;可能大家的第一感觉是信息系统的…

redis数据结构的底层实现

文章目录一.引言二.redis的特点三.Redis的数据结构a.字符串b.hashc.listd.sete.zset(有序集合)一.引言 redis是一个开源的使用C语言编写、支持网络、可基于内存亦可持久化的日志型、key-value的NoSQL数据库。 通常使用redis作为缓存中间件来降低数据库的压力&#xff0c;除此…

STC单片机启动看门狗定时器介绍和使用

STC单片机启动看门狗定时器介绍 ✨这里以STC8系列为例。 📑看门狗复位(WDT_CONTR) WDT_FLAG:看门狗溢出标志 看门狗发生溢出时,硬件自动将此位置 1,需要软件清零。EN_WDT:看门狗使能位 0:对单片机无影响 1:启动看门狗定时器。 注意:看门狗定时器可使用软件方式启动,…

CXL互联标准简介及相关资料

毕设是实现CXL的type3扩展内存设备&#xff0c;因为CXL技术非常新&#xff0c;2019年推出&#xff0c;本专栏也是记录CXL的相关知识与一些浅薄的理解 文章目录CXL出现的背景CXL是什么其他互联总线介绍CXL胜出的原因CXL内容简介包含三种协议 CXL.io/cache/memory支持三种设备类型…

Reids实战—黑马点评(三)秒杀篇

Reids实战—黑马点评&#xff08;三&#xff09;秒杀篇 来自黑马的redis课程的笔记 【黑马程序员Redis入门到实战教程&#xff0c;深度透析redis底层原理redis分布式锁企业解决方案黑马点评实战项目】 目录Reids实战—黑马点评&#xff08;三&#xff09;秒杀篇一、全局唯一I…

DevOps实战50讲-(1)彻底理解DevOps

持续坚持原创输出&#xff0c;点击蓝字关注我吧软件质量保障:所寫即所思&#xff5c;一个阿里质量人对测试的所感所悟。浅谈软件开发流程软件开发流程是从需求分析、设计、编码、测试到上线等一系列环节的步骤和活动。通常来说&#xff0c;软件开发流程可以分为以下几个阶段&am…

Python 多进程多线程线程池进程池协程

目录 一、线程与进程很简单的介绍 1.1 线程与进程的区别 二、多进程Process 2.1 多进程与多线程的区别 2.2 多进程为啥要使用队列 2.3 控制进程运行顺序 2.3.1 join &#xff0c; 2.3.1 daemon 守护进程 2.4 进程id 2.5 进程 存活状态is_alive() 2.5 实现自定义多…

计算机图形学:liang算法和Cyrus-Beck算法

其中Cyrus-Beck算法呢&#xff0c;是计算一根直线一个多边形的交线段&#xff1b;liang算法是Cyrus的一个特例&#xff0c;即多边形刚好是矩形&#xff1b;先看看Cyrus算法的思路【从别的博客找的图片】&#xff1a;这很容易理解&#xff0c;点积>0时就可能中内部嘛&#xf…

Pyinstaller 打包EXE(七) 百篇文章学PyQT

本文章是百篇文章学PyQT6的第七篇&#xff0c;本文讲述如何使用Pyinstaller打包UI界面和代码&#xff0c;将程序打包成EXE来更为方便的进行部署&#xff0c;在写博客和学习的过程中会遇到很多问题&#xff0c;例如&#xff1a;PyQT6在网上很多博客都是PyQT5、或者PyQT4大部分都…

Amazon S3 服务15岁生日快乐!

2021年3月14日&#xff0c;作为第一个发布的服务&#xff0c;Amazon S3 服务15周岁啦&#xff01;在中国文化里&#xff0c;15岁是个临界点&#xff0c;是从“舞勺之年”到“舞象之年”的过渡。相信对于 Amazon S3 和其他的云服务15周岁也将是其迎接更加美好未来的全新起点。亚…

java面试题-JVM内存结构

整体结构&#xff1a;1.说说JVM内存整体的结构&#xff1f;线程私有还是共享的&#xff1f;JVM&#xff08;Java Virtual Machine&#xff09;内存可以分为以下几个部分&#xff1a;程序计数器&#xff08;Program Counter Register&#xff09;&#xff1a;是线程私有的&#…