清华、北大、中科大、UMA、MSU五位博士生畅聊深度学习理论

news/2024/5/19 2:26:47/文章来源:https://blog.csdn.net/AITIME_HY/article/details/128180035

点击蓝字

49cd9de4f8f9ff53ea2b15d2a1cb92ab.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

e4b42a3bd4ad36f41b6d485db7d47470.gif

伴随着深度学习的蓬勃发展,进入人们视线的好像都是算法或AlphaGo等应用层面的东西。但是在理论上,深度学习似乎却没有很出圈的相关理论。因此,部分人也在批评深度学习是缺乏理论的。我们也希望能通过本次的探讨,进一步明确深度学习在研究什么,同时分享各自对于深度学习理论的一些想法。

2022年10月20日,由国际信息中心主办,AI TIME承办的全球博士思辨“深度学习需要什么样的理论”,特别邀请了来自中科大-微软亚研院联培博士生王博涵、北京大学博士生张博航、密歇根安娜堡分校博士生马鉴昊、清华大学交叉信息研究院博士生滕佳烨、密歇根州立大学博士生毛海涛,与大家一起聊一聊深度学习需要什么样的理论。以下内容为嘉宾的聊天实录。

1

什么样的理论才是好的理论?

滕佳烨:最核心的一点是好的理论一定是符合实际的,即使理论中推导出的一些东西可能不严格满足要求。好的理论应该能去掉其中不重要的部分而保留重要的部分,最终给人们呈现出较好的结果。

王博涵:理论首先应该可以对现实进行好的建模,其次则是输出的结果应该能够指导一些事件。在做理论研究时,深度学习神经网络是一个非常复杂的东西,我们很难将每个东西都弄得很清楚。比如,在审阅理论类型文章的时候,我会先去判断这篇文章是否解决了一个问题;如果问题能够解决,并且结果可以在某种程度上达到我的预期,我就会认为这是个不错的工作。

张博航:针对好的理论要素方面,理论主要有几个目的,如对为什么能够生效提供好的解释。另外一点,理论毕竟是从数学层面研究问题的,因此需要具有较好的抽象性。对于是否是一个好的理论,不仅要看其是否general,还要看它的假设是否合理。好的理论还应去除掉那些不是很重要的繁文缛节,保留其核心部分。无论是优化还是泛化,深度学习中的大多数理论都是提供一种上界或下界的分析。那么好的理论就需要能够同时给出上界和下界并保证二者足够的接近。

马鉴昊:如今深度学习应用到的模型都是非常复杂的,无论是网络结构还是参数数量,更包括一些实际处理的问题。这也就会发展出一种复杂的理论使得解释的现象更加接近于现实。同时,为了发展一个复杂的理论,需要我们有更复杂的数学工具来支撑我们的理论。然而,即便部分理论极为复杂,但也会被认为是与实际情况不匹配的。如果相对简单的模型在某个特定方向上反映的结果比较符合实际生活中观察到的现象,那么这个理论也是有价值的。

张博航:以一篇鲁棒性领域的paper为例,文中提到的理论比较符合自己心中好的理论标准。首先,它是一个非常general的理论。大家都知道,神经网络可以拟合任意一个dataset,而且有些理论也表明需要的参数量和数据的个数相同即可进行拟合。然而这篇文章中提到的鲁棒性拟合指的是即便输入的数据点发生扰动,结果仍然能够具有鲁棒性。其general的特性是能够适应任何一种网络的。其结论同样令人印象深刻,大家最终也发现模型的量确实是非常大的。

王博涵:之前读到的一篇paper介绍的是正则领域非常重要的一件工作。该工作可以将一些全连接网络如CNN等都囊括进去,而且其提出了一个数学模型,叫做深度齐次网络。这个网络包含了很多东西,可以看成是提取了多种网络的特性。

马鉴昊:想分享的一篇paper做的是优化,其本身并不是偏理论的paper,但最大的贡献在于质疑了传统优化中的一些基本假设,并且从传统优化的角度来分析梯度下降。该paper提出步长不应设置过大,尤其是在局部函数值变换过大的情况下。在步长给定的时候,梯度下降跑出来的轨迹会逐渐趋向于一些区域,即步长会决定跑到的区域。这篇paper最大的价值可以认为是挖了一个坑,但同时也是优化领域比较出圈的工作。

毛海涛:比较推荐的一篇paper并不是纯理论,其作者在文中针对全局信息给出了一个具象化的概念,并用数学的方式去解释什么是全局信息。论文发现其实并不需要去建模self-intention层,只需要去建模全局信息就会取得很好的效果。这也相当于对什么是全局信息给定了一个参考,能够将原来的模型通过数学的方式进行抽象来更好地指导相关工作。

滕佳烨:自己要分享的generalization方向paper同样是挖了一个坑。论文讲的是给定一个下界,使得很多传统技术需要先绕过文中列举的反例,才能证明自己的技术是好用的。虽然是挖坑的工作,不过却能给我们带来很多想法上的创新。

2

理论和实践的关系应该是什么样的?

滕佳烨:在很多学科中,理论和实践都是密不可分的。但是深度学习领域有些不一样,理论和实践是交替上升的。实践进展飞速,理论倒是有些落后了。

毛海涛:理论和实践是缺一不可的。举个例子,实践能力就像是CPU,CPU越快就可能导致迭代的越快,自然效果也会更好。理论像是内存,如果研究领域较小,则CPU比较重要;研究领域过大,内存就会爆掉。周围的人也会对研究理论的想法不屑一顾,部分人认为对于机器学习最重要的还是算力的提升。算力提高了,很多问题也就迎刃而解了。但是理论更大的作用,在于为我们找出更好的道路。

张博航:对于理论指导实践这个问题,我觉得之所以很多人觉得当前的实践大幅领先理论,在于深度学习的实践过于复杂且很难抽象。如果我们考虑深度学习刚发展起来的那段时间,还是有一些理论影响到了深度学习的发展,如表达能力——两层神经网络可以拟合所有连续函数。另外,即使是其他领域,如优化领域其中的很多方法也都是先有理论才有的实践。说这些也是为了说明深度学习中的理论也不是完全和实践脱离的,很多工作依然是先有的理论,后有的实践应用。

毛海涛:很多观点说,越难的应用会带来更多的理论,因为我们需要应用来提高模型的表达能力。

马鉴昊:之前的科学领域都是理论领先于实践的,其他领域也大多如此。先是摸着石头过河,再总结出一套理论来指导实践。只不过目前大家对深度学习的关注比较多,因此相关争论也很多。没有理论指导的话,也会衍生出一些问题。如果我们的理论足够general,我们也会有足够的底气相信最终可以生效。针对算力才是王道的说法,问题在于算力是很昂贵且对环境不友好的。如果我们能找到一个比较简单或者对算力需求较小的模型,我会偏向于这个小模型。

滕佳烨:经验有时也是会骗人的,我们如果总是依赖经验也难免会犯错。我最初接触到的深度学习理论是图优化,尤其是在完成第一份相关作业的时候一直在调学习率,找到正确结果后瞬间就发现结果会变得非常好,自然而然也就产生了兴趣。有些事情比如我们知道不能在训练集上做测试,都是理论告诉我们的——在训练集上做测试会出问题。

王博涵:之前大家看深度神经网络,会认为这是一个黑盒子。而理论就是将这个黑盒子白盒化的过程。如今的理论还处在向实践提问的过程,这样看来一些很小的观点同样也是一个理论。大家刚刚谈了很多理论到实践,我们也可以说一下从实践到理论。实践到理论并不是指实践为理论开辟了很多问题,我们在做这些东西的时候也是一种多次去验证理论是否正确的过程。通过大规模的实验,也是可以帮助我们确定理论上哪里是能够走通的,这也是我认为深度学习有趣的地方。

3

理论中现在比较有前景的方向有哪些?

王博涵:比较有前景的方向大概可以分为几类,比如对所有神经网络在理论上可以分为三类:泛化、优化和逼近能力。现在的问题在于泛化能力的优势比较难解释,而一个有前景的方向就是将优化和泛化结合起来。其他的新兴方向,如GNN的优化和泛化也可能会有一些新的问题出现。这方面的理论同样存在很多有价值和有趣的内容。另外,如果是数学专业的研究者,用神经网络去做一些微分方程相关的工作虽然没有那么理论,但同样是一项很有意义的工作。

毛海涛:GNN兴起的原因在于图是一种相当general的形式,可以帮助我们研究所有问题。

张博航:一些比较有前景的方向是那些可以处理结构化数据的网络,比如输入是一个集合或者点云,甚至还可以设计一些关于表格的神经网络。这里的难点在于对称性的保持,我觉得这个领域是很重要的,而且也是十分有趣的。这个领域还需要用到比传统深度学习更高层面的一些工具来研究,如群论、抽象代数等等。给我的感觉是这个领域和我之前认识的深度学习领域完全不一样,用到的工具甚至已经不是我们常用的那套数学工具了。

马鉴昊:比较有意思的方向是优化领域。目前优化领域有个非常火的方向是怎样用深度学习的方法来学习一个优化器。之前我们说深度学习是一个非凸优化,在给定优化目标的同时,用深度学习的方法来学习一个优化器就可以极大的缩小优化时间。不过在我的认知里,这个方向目前只在case by case的小规模问题上效果较好。

滕佳烨:目前在做的泛化方向可以说是非常之难,困难点在于训练集和训练参数之间存在一个dependency,这个dependency却非常难处理。这也是大家仍旧在努力做的一个方向,同时也在努力将深度学习的元素加入到泛化之中。泛化领域同样十分受人关注,很多领域都可以基于泛化领域的结论进行之后的推理。然而,泛化领域毕竟已经研究了这么多年,可挖掘的点也没有那么多了。大家如果想选择这个领域还是要谨慎。刚刚听到他人对于工具的介绍,我也有思考泛化是否可以将一些新的工具引入进来,最终得到一些新的结果,这也是之后我要考虑的。

毛海涛:有人说一个模型很难在所有地方都取得很好的效果,总有个优劣之分。但是现在的一些OOD泛化都不会强调自己是在什么OOD场景下做泛化。大多数都是自己构建一个数据集,比如image的背景或颜色换了,就统称为OOD。我们都不知道OOD算法能在什么场景之下起到作用,这个gap也值得后续的探索。

4

给startup哪些建议?

滕佳烨:第一就是不要急着去发论文。理论上的研究很依赖平时的积累,需要一步一步的打好基本盘。不妨先去关注一个问题,慢慢地吃透这个问题。理论如果没有一个宏观想法,就很难去入手。这都需要我们一步一步的去积累,形成对问题的看法。当然,这也需要我们去看一些好的论文。最后是需要放平心态,毕竟理论这个领域就是很难发表论文的,不必急着出成果,而是要先把脚步放慢下来。

王博涵:理论确实是一个比较难的领域。对于新人,有些必要的知识都是需要先行了解的,如分析学、概率学等知识。无论去做什么领域的理论,都避不开这些基础知识。而如果有些对特定领域感兴趣的新人,可以先去看一下该领域学者用到的技术进行积累。我也建议新人多和高年级的同学聊一聊,可能也会发现他们的想法有所不同,对于自己也是个很好的补充。

马鉴昊:对于深度学习的理论,这其实是个很有迷惑性的名字。虽然名字是理论,但是要解释的是深度学习,和纯数学等领域还是很不一样的。这里是需要时不时跑一些小实验的,一方面的因为我们想要解释实际生活中的一些现象,另一方面也是深度学习本身还是一个比较复杂的学科,还是会有很多因素影响到最后的现象。

张博航:想要入坑最好的方法其实是多看几篇较好的文章,然后从那些文章的topic入手。我顺着那篇paper先看了证明,再想了下是否可以接着往下做。我认为最好的方法是先确定一个问题,将与问题相关的paper都读了,证明也看了,就会对相关技术有一个大致的了解。这样一来,目前积累的理论对于解决这个问题也就够用了。用到哪些,就去学相关的理论是一个比较好的方式。

毛海涛:建议最好先确保最基础的数学知识过关,如线性代数等。从应用转向理论,关键在于不要被理论工作的繁多内容吓退。

针对平时研究复杂理论遇到障碍卡住的经历,大家也都分享了各自的应对方法。

滕佳烨:如果能确定问题的困难点在哪里且能通过技术绕过去的话,是可以找周围的人请教一下。如果不知道问题的困难点,可能需要从头到尾梳理一下前面的内容。

马鉴昊:实在被一个问题卡住的话,不妨同时并行几个项目。这个问题卡住了,我们可以去继续其他问题的研究。这样也不会因为总是卡在一个问题上而感到烦闷。

张博航:曾经试过一种有效的方式,当我们卡住的时候就去举几个反例。如果还是证不出来,那么意味着这可能是正确的。而反例举不出来可能就是因为这里卡住了,那么我证明的时候把这部分用上,可能就会涌现新的思路。

本期的全球博士思辨“深度学习需要什么样的理论”吸引了约2.4万专业领域观众观看,线上观众也沉浸在这场深度学习理论的思辨中,未来也期待更多的青年学者在深度学习领域大放异彩。

往期精彩文章推荐

bc6b823ff3e89329b2327c98a6588491.jpeg

记得关注我们呀!每天都有新知识!

 关于国际科技信息中心 

 国际科技信息中心由市科创委统筹,清华大学深圳国际研究生院牵头,超 算中心、市科技图书馆、深圳清华研究院合作共建而成。中心立足深圳,面向世界,充分发挥深圳创新活跃、高新技术发达优势,致力于打造涵盖基础设施、科技文献、科学数据、情报信息、高端智库、智能服务等体系的“科技超脑”数智平台,赋能粤港澳大湾区科研与产业,加速科技创新,有力支撑粤港澳大湾区国际科技创新中心和综合性国家科学中心建设。

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。

1079726cdb5887b722910ff4aa2f6316.png

我知道你

在看

~

6fcd921b81486ed186ae82711577a5e5.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_230663.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝海创意云·11月大事记 || 12月,暖心相伴

秋尽冬生,日短天寒 告别了立冬与小雪 时光不紧不慢开启了新一月的篇章 万物冬藏,沉淀酝酿 站在十二月的路口 蛰伏打磨,静待厚积而薄发 导 读 ● 客户端更新:新增PSD通道合成选项 ● 渲染案例:绝代双骄重启江湖…

Reading Note(10)——AutoBridge

这篇论文是FPGA 2021年的best paper award,主要解决的是在HLS编译过程中优化布局和布线,最终达到整个multi-die的FPGA板上的大规模HLS设计时钟频率尽可能提升的目的,这篇工作在当前chiplet工艺铺展开来的当下更加有现实意义,通过这…

浅谈ES标准的演变

ECMAScript从1997年第一版诞生依赖,经过无数人的“踩坑”和“填坑”,到现在,ES12呼之欲出。那么我们不妨讨论一下ES的发展历程,看它如何统一江湖,看它“曲折”而又令人期待的发展之路。 最近分析typescript&#xff0c…

jsp网络申报审批系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 网络申报审批系统 是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql,使用…

16S全长测序揭示绿头虻肠道微生物及共生细菌

论文题目:Greenhead (Tabanus nigrovittatus) Wolbachia and Its Microbiome: A Preliminary Study 期刊:Microbiol Spectrum 研究背景 绿头虻(Tabanus nigrovittatus)的雌虫刺吸牲畜的血液,危害家畜,是美…

【从零开始学习深度学习】6.使用torchvision下载与查看图像分类数据集Fashion-MNIST

目录1.1 获取Fashion-MNIST数据集2.2 读取小批量小结图像分类数据集中最常用的是手写数字识别数据集MNIST。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法之间的差异,我们将使用一个图像内容更加复杂的数据集Fashion-MNIST。 本节我们将使用to…

分享几款免费实用的国产内网穿透工具

对于没有公网IP的用户来说,如何实现远程管理或让局域网的服务可以被公网访问到是一个问题。当然,也有很多类似的需求,比如: 微信公众号小程序开发调试公网访问本地web项目异地远程处理公司服务问题异地访问公司内网财务/管理系统…

什么是代码签名证书?

使用代码签名证书,您可以保证签名者的身份和软件的完整性,这可以防止在下载和安装软件时出现警告。 代码签名证书是软件开发人员用来签署其软件、应用程序和驱动程序代码的数字证书。它使用公私密钥基础设施(PKI)将实体绑定到公钥和私钥。 申请代码签名…

好用的数据恢复软件EasyRecovery2023最新版

实用的数据恢复软件有什么?电脑中的数据文件对很多的小伙伴来说都是非常重要的,在下载安装新的软件设备时都需要非常谨慎,一旦碰到一些病毒就可能会导致文件丢失,想要恢复这些文件并不是很容易,需要使用专业的数据恢复…

西部学刊杂志西部学刊杂志社西部学刊编辑部2022年第22期目录

百年党建与马克思主义中国化研究 党的纪律建设的实践、启示与创新——基于“三大纪律八项注意”的研究 武艳; 5-8 西部研究《西部学刊》投稿:cn7kantougao163.com 新疆红色资源运用现状调查研究——以南疆部分地区为例 王艺潼;努尔古扎丽阿不都克里木; 9-12…

毕业设计-基于机器视觉的深蹲检测识别-TensorFlow-opencv

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

Flink

文章目录1. 概述1.1 Apache Flink1.2 特点1.3 Flink VS Spark Streaming2. 安装与部署2. Flink运行时的组件2.1 作业管理器(JobManager)2.2 任务管理器(TaskManager)2.3 资源管理器(ResourceManager)2.4 分发器(Dispatcher)3. 任务提交流程4. Flink API4.1 不用级别…

红石外汇|每日汇评:在中国重新开放和OPEC+的推动下,欧元受到高度关注

1、本周开始欧元再次上涨,而美元则暴跌; 2、积极的美国就业数据和OPEC稳定的产量提升为经济回升提供前景; 3、市场对中国重新开放的渴望可能很快就会实现; 今天,由于美元再次面临压力,欧元兑美元在亚盘市…

window和linux的nacos安装

Nacos注册中心 Nacos是阿里巴巴的产品,现在是SpringCloud中的一个组件。相比Eureka功能更加丰富,在国内受欢迎程度较高 Nacos的下载 在Nacos的GitHub页面,提供有下载链接,可以下载编译好的Nacos服务端或者源代码: …

代码随想录刷题Day55 | 392. 判断子序列 | 115. 不同的子序列

代码随想录刷题Day55 | 392. 判断子序列 | 115. 不同的子序列 392. 判断子序列 题目: 给定字符串 s 和 t ,判断 s 是否为 t 的子序列。 字符串的一个子序列是原始字符串删除一些(也可以不删除)字符而不改变剩余字符相对位置形…

闲人闲谈PS之三十六——项目状态控制

**惯例闲话:**最近感觉时间不够用,脑子有很多想法,但是到下笔却感觉总是下不了手,写完一段,感觉和自己想的差距很大,然后有全部删除…这难道就是传说中年纪大了,手脚不停使唤…这让闲人更加焦虑…

SSM框架学习记录-Spring_day02

1.IOC/DI配置管理第三方bean 之前都是基于自己写的类,如果有需求去管理第三方Jar包中的类,该如何管理? 案例:数据源对象管理 使用Spring的IOC容器来管理Druid连接池对象 思路分析 要使用第三方的技术,需要在pom.xml添加依赖 在配置文件中将…

简单学校网页设计作业 静态HTML校园博客主页 DW大学网站模板下载 大学生简单我的学校网页作品代码 个人网页制作 学生个人网页设计作业

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

Linux——网络配置(重点)

目录 一、查看网络IP和网关 1.1 那怎么看连接成功呢? 1.1.1 虚拟机接受主机 1.1.2 主机可以接收到虚拟机 1.2 怎么查看电脑的IP地址 方法一: 方法二: 1.3 怎么查看虚拟机的IP地址 二、网络连接模式 2.1 基本了解 2.2 VMware三种网络…

etcd实现大规模服务治理应用实战

导读:服务治理目前越来越被企业建设所重视,特别现在云原生,微服务等各种技术被更多的企业所应用,本文内容是百度小程序团队基于大模型服务治理实战经验的一些总结,同时结合当前较火的分布式开源kv产品etcd,…