轻松识别Midjourney等AI生成图片,开源GenImage

news/2024/2/24 8:14:21/文章来源:https://blog.csdn.net/weixin_57291105/article/details/135627109

AIGC时代,人人都可以使用Midjourney、Stable Diffusion等AI产品生成高质量图片,其逼真程度肉眼难以区分真假。这种虚假照片有时会对社会产生不良影响,例如,生成公众人物不雅图片用于散播谣言;合成虚假图片用于金融欺诈,造成信任危机等。

因此,华为诺亚方舟实验室开源了百万量级的GenImage数据集,帮助企业、开发者快速构建区分AI生成的图像和真实图像的检测器和评估工具,致力于构建AIGC时代的ImageNet。

开源地址:https://github.com/GenImage-Dataset/GenImage

论文:https://arxiv.org/abs/2306.08571

项目主页:https://genimage-dataset.github.io/

GenImage主要优点

1)大量图像,包括超过一百万对 AI 生成的假图像和收集的真实图像。

2)丰富的图像内容,涵盖广泛的1000类图像。

3) 最先进的生成器,Midjourney、Stable Diffusion、ADM、GLIDE、Wukong、VQDM等,利用先进的扩散模型和 GAN 合成图像。

上述优点使得在GenImage 上训练的检测器能够经过全面的评估,并表现出对不同图像的强大适用性。

华为团队对数据集进行了全面分析,并提出了两个任务来评估类似于真实场景的检测方法。交叉生成器:检测器在一种生成器生成的数据上训练,在其他生成器生成的数据上验证。这个任务目的是考察检测器在不同生成器上的泛化能力。

图片

退化图像识别:检测器需要对于低分辨率,模糊和压缩图像进行识别。这个任务主要考察检测器在真实条件(如互联网上传播)中面对低质量图像时的泛化问题。

数据集介绍

过去开源界也推出了一些数据集,主要有三个特点。第一数据规模小,第二都是基于GAN的,第三是局限于人脸数据。随着时间推移,数据规模慢慢地在增加,生成器也从GAN时代过渡到Diffusion时代,数据的范围也在增加。

但是一个大规模以Diffusion模型为主,涵盖各类通用图像的数据集仍然是缺失的。

基于此,华为团队提出一个对标imagenet的genimage数据集。真实的图片采用了ImageNet。

图片

虚假的图片采用ImageNet的标签进行生成。华为团队利用了八个先进的生成器来生成,分别是Midjourney,
Stable Diffusion V1.4, Stable Diffusion V1.5, ADM, GLIDE, Wukong,VQDM和BigGAN。

这些生成器生成的图片总数基本与真实图片一致。每个生成器生成的图片数量也基本一致。每一类生成的图片数量基本一致。

实验结果

华为团队做了一些实验来考察这个数据集。他们发现在某个生成器上训练的ResNet-50模型在其他的测试准确率会明显降低。

然而在真实情况下华为团队难以得知遇到的图像的生成器是什么。因此检测器对于不同生成器生成图片的泛化能力很重要。

图片

华为团队对比了现有方法在Stable Diffusion V1.4上训练,然后在各种生成器上测试的结果,也评测了各种生成器上训练,然后在各种生成器上测试的结果。

Testing Subset那一列中的每一个数据点,都是在八个生成器上训练,然后在一个生成器上测试得到的平均结果。然后华为团队将这些测试集上的结果平均,得到最右侧的平均结果。

图片

图片

华为团队对测试集进行退化处理,采用不同参数下的低分辨率,JPEG压缩和高斯模糊,评测结果如下

图片

那么采集这么多数据是不是有用呢?华为团队做了相关实验,证明通过提升数据类比和每类的图片数量是可以提高性能。

图片

针对GenImage数据集对于不同图片的泛化能力,华为团队发现他对于人脸和艺术类图片也能达到很好的效果。

图片

图片

未来展望

随着AI生成图片能力的不断提升,对于AI生成的图片实现有效检测的需求将会越来越迫切。本数据集致力于为真实环境下的生成图片检测提供有效训练数据。

华为团队使用ResNet-50在本数据集中训练,然后在真实推文中进行检测。如下图,ResNet-50能够有效识别真图和假图。

这个结果证明了GenIamge可以用于训练模型以判别真实世界的虚假信息。华为团队认为,该领域未来值得努力的方向是不断提升检测器在GenImage数据集上的准确率,并进而提升其在真实世界面对虚假信息的能力。

图片

真实图片

图片

AI生成虚假图片

本文素材来源华为GenImage,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_926171.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Angular系列教程之DOM操作

文章目录 引言1. ElementRef2. Renderer23. ViewChild结论 引言 在Angular中,DOM操作是开发Web应用程序的一个重要方面。通过对DOM进行操作,我们可以动态地修改页面内容、样式和元素行为。本文将详细介绍如何在Angular中进行DOM操作,并提供相…

从数据可视化到场景渲染:山海鲸的创新与实践

作为山海鲸的开发者,我们深知可视化模型场景渲染在数据分析和决策支持中的重要作用。因此在保证山海鲸可视化软件免费编辑、分享、部署的同时也在场景渲染方面不断优化,本文将介绍山海鲸在可视化模型场景渲染方面的技术革新与实践探索。 首先&#xff0…

【STM32】STM32学习笔记-USART串口数据包(28)

00. 目录 文章目录 00. 目录01. 串口简介02. HEX数据包03. 文本数据包04. HEX数据包接收05. 文本数据包接收06. 预留07. 附录 01. 串口简介 串口通讯(Serial Communication)是一种设备间非常常用的串行通讯方式,因为它简单便捷,因此大部分电子设备都支持…

Go并发快速入门:Goroutine

Go并发:Goroutine 1.并发基础概念:进程、线程、协程 (1) 进程 可以比作食材加工的一系列动作 进程就是程序在操作系统中的一次执行过程,是由系统进行资源分配和调度的基本单位,进程是一个动态概念,是程序在执行过程…

unity面试题

一:什么是协同程序? 在主线程运行的同时开启另一段逻辑处理,来协助当前程序的执行,协程很像多线程,但是不是多线程,Unity的协程实在每帧结束之后去检测yield的条件是否满足。 二:Unity3d中的碰…

汽车线束的汽配企业MES管理系统解决方案

随着科技的飞速发展和环保需求的日益提升,新能源汽车在全球范围内崭露头角,成为未来出行的主导力量。在这股浪潮中,中国凭借其强大的研发实力和市场敏锐度,迅速崛起为新能源汽车领域的佼佼者。而作为汽车数字化控制与智能化应用的…

Excel地址

解题思路: 根据题中歪歪和笨笨的话可以有两种解法。 1.输入的数为多大,则循环1多少次,当值为27时就要进行进位操作。这时要分情况讨论。 当集合中元素为一个时,如26,则需要变为1 1,集合元素个数加一。 当…

Maven 依赖传递和冲突、继承和聚合

一、依赖传递和冲突 1.1 Maven 依赖传递特性 1.1.1 概念 假如有三个 Maven 项目 A、B 和 C,其中项目 A 依赖 B,项目 B 依赖 C。那么我们可以说 A 依赖 C。也就是说,依赖的关系为:A—>B—>C, 那么我们执行项目 …

IC验证——perl脚本ccode_standard——c代码寄存器配置标准化

目录 1 脚本名称 2 脚本路径 3 脚本参数说明 4 脚本操作说明 5 脚本代码 1 脚本名称 ccode_standard 2 脚本路径 /scripts/bin/ccode_standard 3 脚本参数说明 次序 参数名 说明 1 address (./rfdig;.;..;./boot) 指定脚本执行路…

ES高级查询

ES中提供了一种强大的检索数据方式,这种检索方式称为Query DSL,这种方式的丰富查询语法让ES检索变得更强大,更简洁。 1.常见查询 1.1查询所有[match_all] match_all关键字:返回索引中的全部文档。 GET /products/_search { &…

Redis-redis.conf配置文件中的RDB与AOF持久化方式的详解与区别

RDB(Redis Database) RDB是Redis的默认持久化方式,它将内存中的数据以二进制格式写入磁盘,形成一个快照。RDB持久化有以下几个重要的配置选项: save:指定了保存RDB的策略,默认的配置是每900秒&…

域名群站开源系统分享开源域名授权系统

一、需要自己安装PHP和MYSQL服务器环境。 二、务必设置伪静态规则,否则将无法访问文章栏目页面。 三、启用伪静态功能,请在站点设置中选择使用thinkphp的伪静态规则。 四、在域名的根目录下找到”data/config.php”文件,填入数据库的账号和…

使用WAF防御网络上的隐蔽威胁之CSRF攻击

在网络安全领域,除了常见的XSS(跨站脚本)攻击外,CSRF(跨站请求伪造)攻击也是一种常见且危险的威胁。这种攻击利用用户已经验证的身份在没有用户知情的情况下,执行非授权的操作。了解CSRF攻击的机…

无需主网结算来进行 BTC 交易?Tectum 提出了新的解决方案

撰文:Tom,CryptoBooster 下载TechubNews APP,探索Web3的无限可能!掌握最新动态,发现更多相关资讯,与行业领袖共同探索未来趋势。立即下载,开启您的Web3之旅! 区块链发展至今&#x…

解决防爬虫机制方法(二)

最近为了完成学校的大数据的作业,老师要我们爬一个的网站,里面有还算不错的防爬机制,忙活了几天,总结出一些常见的防爬机制的应对方法,方法均来自个人实战总结,非专业爬虫角度分析 承接上一次讲的方法解决…

MybatisPlus-删除

目录 1.数据库建表 2.项目 ---就是更新del_flag字段为2 (1)pom.xml (2)Application (3)applicatiom.yml (4)entity (5)mapper (6)service (7)service目录下的impl目录 (8)common (9)enums (10)config (11)controller postman测试 3.彻底删除数据库记录 (11&…

Shell脚本同时调用#!/bin/bash和#!/usr/bin/expect

如果你想在一个脚本中同时使用bash和expect,你可以将expect部分嵌入到bash脚本中。以下是一个示例: #!/bin/bash# 设置MySQL服务器地址、端口、用户名和密码 MYSQL_HOST"localhost" MYSQL_PORT"3306" MYSQL_USER"your_usernam…

windows 环境下使用脚本备份 oracle 数据库数据

文章目录 前言一、修改点1.设置用户名、密码和要备份的数据库2.创建备份目录3.详情:Bak.bat 文件 二、定时任务自启动bat文件总结 前言 当我们的系统部署在 windows 上时,且使用的数据库为 oracle 时,需要将数据库的数据定时备份。 提示&…

解决Spring Boot跨域问题(配置JAVA类)

什么是跨域问题 跨域问题指的是不同端口之间,使用 ajax 无法相互调用的问题。跨域问题本质是浏览器的一种保护机制,它是为了保证用户的安全,防止恶意网站窃取数据。 比如前端用的端口号为8081,后端用的端口号为8080,后…

在pycharm远程连接树莓派遇到的No files or folders found to process处理办法

在PyCharm中解决"No files or folders found to process"错误的另一个方法是通过Deployment中的Configuration选项。在PyCharm中,找到Tool并选择Deployment,然后点击Configuration。 在设置路径的过程中需要注意目标目录是相对的 在中 会识…