Papers Without Code网站,张贴复现不了的论文

news/2024/5/9 18:16:27/文章来源:https://blog.csdn.net/zandaoguang/article/details/114769710

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

来源丨机器之心

编辑丨极市平台

「无法复现的论文都是耍流氓。」

二十几天前,Reddit 用户「ContributionSecure14」在机器学习社区疯狂吐槽:「我花了一个星期尝试复现一篇论文,结果失败了。上网搜了一下才发现,也有其他人说这篇论文的结果无法复现。」

「有没有那种专门列出无法复现论文的清单?这样可以让研究者们节省大量时间和精力。」

有人回复道:有一说一,从实际出发的话,列出「可复现论文清单」会更容易一些……

另一位 Reddit 用户写道:「所有论文中可能有 50%-75%是不可复现的,可悲啊,但这却是事实。」

现在,越来越多的机器学习研究者选择在论文发表时同步公开自己的代码,像 arXiv 这样的论文预印本平台也选择与机器学习资源网站 Papers with Code 合作,支持研究者在 arXiv 页面上添加代码链接。还有一些顶会(ICML、ICLR、NeurIPS)要求投稿人在提交论文的时候附上代码,以供审稿人测试,确保其研究结果的可复现性。

但这一切仍然不代表论文复现变得容易了。

一气之下,ContributionSecure14 创建了一个名为「Papers Without Code」的机器学习研究反馈平台,专门挂出那些大家都无法复现的论文研究。

网站地址:https://www.paperswithoutcode.com/

Papers 「Without」 Code

机器学习领域研究者大多熟悉 PapersWithCode,这个资源网站上托管着 4 万多个研究的实现代码,但它没有进一步解决「有代码也复现不了」的问题。这个问题或许可以在「Papers Without Code」上找到答案。

简单来说,在 Papers Without Code 上,研究者可以提交无法复现的机器学习论文以及他们的工作细节,例如他们花费了多少时间来复现结果。

如果提交内容有效,则 Papers Without Code 方面将与该论文原作者联系,并要求其澄清或公布实现细节。论文成功复现后,可以在 PapersWithCode 或 GitHub 上发布,供其他研究人员参考。如果作者未及时答复,该论文将被添加到「不可复现的机器学习论文列表」中,公开处刑。  

ContributionSecure14 表示:「Papers Without Code 的目标与 PapersWithCode 及整个 ML 社区是一致的。」目前已有几篇论文上榜。

反馈者需要提交包括论文标题、论文链接、提交原因等基本信息。地址:https://papers.paperswithoutcode.com/

「这样做的目的是为了节省研究人员的时间和精力,以免花费成本去复现一篇无法复现的论文结果,而无法复现的原因可能是论文没有足够的细节或方法根本不 work。」

如果某篇论文「光荣上榜」,论文作者会被第一时间告知,并有机会作出回应。这一机制的建立也是希望能够促进机器学习社区之间的有效交流,并培养健康的研究生态。

复现一篇论文,有多难?

事实上,迄今为止行业内仍有相当数量的优质研究未能复现。从研究角度来说,这为后来研究者基于先驱工作尝试新的探索带来了一定阻碍。也有一部分研究无法复现是因为研究本身不合格,而不是因为复现者的技术太差。

网站创建者 ContributionSecure14 表示:「如果其他人不能以该论文为基础或 baseline,那么公开发表的有实证结果的论文毫无意义。」  

但他同时也承认,有时候出于某些正当理由,机器学习研究者不会公开代码,比如一些作者可能是在内部基础架构上训练他们的模型,或者使用大型内部数据集进行预训练。在这种情况下,受到企业政策的限制,研究人员无权随论文发布代码或数据。

在某些情况下,即使作者将源代码和数据都发布在论文中,其他机器学习研究人员仍然很难复现结果。

造成这种情况的原因也有很多,比如论文作者可能会从多个实验中挑选出最好的结果,以达到 SOTA 水平;或者使用一些技巧,针对数据集来调整机器学习模型的参数,以提升实验结果。在这两种情形下,即使结果最终可复现,但因为机器学习模型针对特定条件过拟合,所以在新的数据上效果往往并不好。

可复现问题并不局限于少数的小规模机器学习研究团队,即使是那些挥金如土的大公司也常常无法验证其论文的结果。去年,图灵奖得主 Yann LeCun 就公开质疑过谷歌大脑的论文无法复现,很多 NLP 领域顶级研究人员无法复现谷歌大脑的语言模型 Transformer-XL 所得到的结果,一度引发社区热议。

如果你的研究是在其他论文的基础之上,尝试复现其他研究的机器学习代码肯定是常规操作。「不要简单地根据论文主张就预设『见解』, 」ContributionSecure14 表示,「即使是那些大组的论文,抑或是被顶会接收的论文。」

NeurIPS 组委会从 2019 年起就鼓励论文作者提交代码(非强制),目前成效显著。在 NeurIPS 2019 的最后提交阶段,有 75% 的被接收论文附带了代码。随后,NeuIPS 将代码提交从「鼓励」变成了「强烈建议」(仍不强制),还提供了提交代码的准则和模板。这些措施都有利于复现工作

但代码公开问题也不能「一刀切」,毕竟可复现性并不是评价论文的唯一标准。

除了 Papers Without Code,你也可以参考 Pineau 教授的「机器学习可复现性调查表」(https://www.cs.mcgill.ca/~jpineau/ReproducibilityChecklist.pdf),这个清单为如何使其他研究人员清楚并重现机器学习论文的描述、代码和数据提供了明确的指导原则。

人们一直抱怨 AI 论文难复现,但机器学习社区在促进可复现方面可以发挥更加重要的作用。「很多时候论文作者都会在发表研究时面临压力,因此牺牲了学术深度和可复现性,并没有太多制衡的方法来阻止这种行为,」ContributionSecure14 说道。

「唯一能够改变这种趋势的可能性在于,引导机器学习研究者们在进行研究时更加注重质量而非数量。」

参考链接:https://thenextweb.com/neural/2021/03/06/list-non-reproducible-research-machine-learning-papers-syndication/

点个在看 paper不断!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_700913.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python轻松爬取Rosimm写真网站全部图片

RosimmImage 爬取Rosimm写真网站图片 有图有真相 def main_start(url):"""爬虫入口,主要爬取操作"""try:r requests.get(url.html, headersHEADERS, timeout10).textprint(url.html)name_index 0# 套图名,也作为文件夹名…

让别人不知道你的网站使用PHP

2019独角兽企业重金招聘Python工程师标准>>> 如果不想让别人知道你的网站使用了PHP程序,这样可以提高网站的安全。这并不说明PHP不安全,只是可以防止一些人攻击你的网站。你可以按照下面的方法设置你的httpd.conf文件。 你可以使用下面的方法…

winform模拟登陆网页_【教程】模拟登陆网站 之 C#版(内含两种版本的完整的可运行的代码)...

之前已经介绍过了网络相关的一些基础知识了:以及简单的网页内容抓取,用C#是如何实现的:现在接着来介绍,以模拟登陆百度首页:为例,说明如何通过C#模拟登陆网站。不过,此处需要介绍一下此文前提&a…

15岁天才创办4chan匿名网站,如今因股权分配不均,与谷歌不欢而散!

点击上方“视学算法”,选择加"星标"或“置顶”重磅干货,第一时间送达视学算法报道 转载自:新智元来源:cnbc编辑:LZY【新智元导读】15岁创立在线社区4chan,这位「天才男孩」Chris Poole 现离职谷…

学以致用七---Centos7.2+python3.6.2+django2.1.1 --搭建一个网站(补充)

补充:上一节出现的报错提示 可在settings.py 里,改成 ‘*’ ,这样所有的主机都可以访问了。 打开网页 注意红色框出来的 hello 是和 urls.py里的hello对应 urls.py 里的 views.hello 和 app下views.py 里的函数对应 关系对应图 关系图随着…

小学六年级,自学计算机,会爬虫,搞崩过学校网站,还有女朋友...

点击上方“视学算法”,选择加"星标"或“置顶”重磅干货,第一时间送达我在上周遇到一个很奇怪的读者,他的头像是电影《V字仇杀队》里的面具。感觉上去是一个黑客爱好者,不是一个好惹的家伙,小林看了瑟瑟发抖。…

优词词根词典mdx_推荐|一波好用的在线英语词典网站

【01】Definitions:http://t.cn/RcL6CcH;在线多语言词典查询网是一个免费的英文单词解释的多语言翻译网站,内容涵盖了人名、地名、热门词汇、技术、历史名词等丰富的词汇,支持中文语言,是英语爱好者查询词语解释的必备…

网站优化基础教程:发布外链常见的五种方式!

想要做好网站优化,外链的发布也是很重要的一环,如果您还没有做,建议您抓紧去做一下。 这篇文章发迹创业网就分享一下,常见的几种发布外链的方法。 1,锚文本 又叫做超链接,是指给关键词加一个链接&#xff0…

一个可提供html5制作服务的网站

2019独角兽企业重金招聘Python工程师标准>>> 【TechWeb报道】最近网上出现了一个专门基于HTML5/CSS3制作服务的组织 P2H.cn. 就是专门提供网站切图的一项服务。特别在哪儿呢 ,P2H.cn 可以制作出完美的兼容的html5/css3的页面。 王大利/文 如果你不知…

两个网站做到同一个服务器,两个网站放在同一个服务器 备案

两个网站放在同一个服务器 备案 内容精选换一换没有,华为云包含企业邮箱服务,具体请参考: https://www.huaweicloud.com/marketplace/activity/mail.html。您可享受咨询解答、退换货和软件维护、升级等服务。云速建站提供的以下四种形式的帮助…

爬虫之selenium爬取斗鱼网站

爬虫之selenium爬取斗鱼网站 示例代码: from selenium import webdriver import timeclass Douyu(object):def __init__(self):self.url https://www.douyu.com/directory/allself.driver webdriver.Chrome()def parse_data(self):time.sleep(3)room_list self…

献上程序员大学四年珍藏的30个宝藏网站,全部拿出来

目录一、程序员视频学习网站1.哔哩哔哩2.慕课网3.学堂在线二、编程学习网站1.菜鸟教程2.W3cSchool3.实验楼三、刷题网站1.力扣2.牛客网——在线编程模块3.CodeTop4.赛码网四、实用工具1.Processon2.ioDraw3.在线JSON解析4.在线进制转换五、博客 、论坛1.CSDN2.掘金3.简书4.博客…

七个合法学习黑客技术的网站,让你从萌新成为大佬

合法的学习网站,以下这些网站,虽说不上全方位的满足你的需求,但是大部分也都能。能带你了解到黑客有关的技术,视频,电子书,实践,工具,数据库等等相关学习内容。以上这些网站我都是用…

java中的Executors简介与多线程在网站上逐步优化的运用案例

提供Executor的工厂类 忽略了自定义的ThreadFactory、callable和unconfigurable相关的方法newFixedxxx:在任意时刻,最多有nThreads个线程在处理task;如果所有线程都在运行时来了新的任务,它会被扔入队列;如果有线程在执行期间因某…

爬取网站图片并保存到本地

第一步:模拟浏览器发出请求,获取网页数据 import requests# 目标网站 url https://baijiahao.baidu.com/s?id1687278509395553439&wfrspider&forpc # 头部伪装 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:84.0) Ge…

php网站安全狗绕过,最新安全狗绕过姿势 - Azeng呐的个人空间 - OSCHINA - 中文开源技术交流社区...

安全狗是让大家最头疼的安全防护软件,然后我给大家带来最新的安全狗绕过,也不知道能活多久。攻防永无止境吧。最新版本安全狗从官网下载的,我来说一下思路。要想绕过安全狗首先你要知道,安全狗是怎么防护的,过滤的是什…

使用C#的HttpWebRequest模拟登陆网站

很久没有写新的东西了,今天在工作中遇到的一个问题,感觉很有用,有种想记下来的冲动。 这篇文章是有关模拟登录网站方面的。 实现步骤; 启用一个web会话发送模拟数据请求(POST或者GET)获取会话的CooKie 并根…

Scrapy框架模拟Github网站登陆

1. 以往的模拟登陆的方法 1.1 requests模块是如何实现模拟登陆的? 直接携带cookies请求页面找url地址,发送post请求存储cookie 1.2 selenium是如何模拟登陆的? 找到对应的input标签,输入文本点击登陆 1.3 scrapy的模拟登陆 直…

Python爬虫并自制新闻网站,太好玩了

来源 | 凹凸数据(ID:alltodata)我们总是在爬啊爬,爬到了数据难道只是为了做一个词云吗?当然不!这次我就利用flask为大家呈现一道小菜。Flask是python中一个轻量级web框架,相对于其他web框架来说…

Spring Boot 2.X整合Spring-cache,让你的网站速度飞起来

计算机领域有人说过一句名言:“计算机科学领域的任何问题都可以通过增加一个中间层来解决”,今天我们就用Spring-cache给网站添加一层缓存,让你的网站速度飞起来。本文目录 一、Spring Cache介绍二、缓存注解介绍三、Spring BootCache实战1、…