# 深度学习领域综述总结 --- ## 2019->2020必看的十篇「深度学习领域综述」论文 ### 1、A guide to deep learning in healthcare(医疗深度学习技术指南) 斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南(29页综述) Google 斯坦福 Nature Medicine 作者:Andre Esteva, Alexandre Robicquet, Bharath Ramsundar, Volodymyr Kuleshov, Mark DePristo, Katherine Chou, Claire Cui, Greg Corrado, Sebastian Thrun & Jeff Dean 摘要:我们介绍了医疗保健的深度学习技术,重点讨论了计算机视觉、自然语言处理、强化学习和广义方法的深度学习。我们将描述这些计算技术如何影响医学的几个关键领域,并探讨如何构建端到端系统。我们对计算机视觉的讨论主要集中在医学成像上,我们描述了自然语言处理在电子健康记录数据等领域的应用。同样,在机器人辅助手术的背景下讨论了强化学习,并综述了基因组学的广义深度学习方法。 ![img](https://cdn.zhuanzhi.ai/vfiles/25792f452347393dfa7b9943c58a444b) 网址: https://www.nature.com/articles/s41591-018-0316-z ### 2、Multimodal Machine Learning: A Survey and Taxonomy(多模态机器学习) 人工智能顶刊TPAMI2019最新《多模态机器学习综述》 CMU TPAMI 作者:Tadas Baltrušaitis,Chaitanya Ahuja,Louis-Philippe Morency 摘要:我们对世界的体验是多模态的 - 我们看到物体,听到声音,感觉质地,闻到异味和味道。情态是指某种事物发生或经历的方式,并且当研究问题包括多种这样的形式时,研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展,它需要能够将这种多模态信号一起解释。多模态机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域,具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用,而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类,并确定了多模式机器学习所面临的更广泛的挑战,即:表示,翻译,对齐,融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况,并确定未来研究的方向。 ![img](https://cdn.zhuanzhi.ai/vfiles/c554b6940d558f5e2d8c97a6cc54ceb7) 网址: http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915 https://ieeexplore.ieee.org/document/8269806 ### 3、Few-shot Learning: A Survey(小样本学习) 《小样本学习(Few-shot learning)》最新41页综述论文,来自港科大和第四范式 香港科大 第四范式 作者:Yaqing Wang,Quanming Yao 摘要:“机器会思考吗”和“机器能做人类做的事情吗”是推动人工智能发展的任务。尽管最近的人工智能在许多数据密集型应用中取得了成功,但它仍然缺乏从有限的数据示例学习和对新任务的快速泛化的能力。为了解决这个问题,我们必须求助于机器学习,它支持人工智能的科学研究。特别地,在这种情况下,有一个机器学习问题称为小样本学习(Few-Shot Learning,FSL)。该方法利用先验知识,可以快速地推广到有限监督经验的新任务中,通过推广和类比,模拟人类从少数例子中获取知识的能力。它被视为真正人工智能,是一种减少繁重的数据收集和计算成本高昂的培训的方法,也是罕见案例学习有效方式。随着FSL研究的广泛开展,我们对其进行了全面的综述。我们首先给出了FSL的正式定义。然后指出了FSL的核心问题,将问题从“如何解决FSL”转变为“如何处理核心问题”。因此,从FSL诞生到最近发表的作品都被归为一个统一的类别,并对不同类别的优缺点进行了深入的讨论。最后,我们从问题设置、技术、应用和理论等方面展望了FSL未来可能的发展方向,希望为初学者和有经验的研究者提供一些见解。 ![img](https://cdn.zhuanzhi.ai/vfiles/ebadc05117242670ba9dad0f2c8f362d) 网址: https://www.zhuanzhi.ai/paper/c7a2464c0865b9602a4103fb44659858 ### 4、meta Learning: A Survey(元学习) 元学习(Meta-Learning) 综述及五篇顶会论文推荐 作者:Joaquin Vanschoren 摘要:元学习,或学习学习,是一门系统地观察不同机器学习方法如何在广泛的学习任务中执行的科学,然后从这种经验或元数据中学习,以比其他方法更快的速度学习新任务。这不仅极大地加快和改进了机器学习管道或神经体系结构的设计,还允许我们用以数据驱动方式学习的新方法取代手工设计的算法。在本文中,我们将概述这一迷人且不断发展的领域的最新进展。 ![img](https://cdn.zhuanzhi.ai/vfiles/1f4318aa8481d36f103ab5f246a57e7e) 网址: http://www.zhuanzhi.ai/paper/dd60eaffea966331e199fa531bae7044 ### 5、A Comprehensive Survey on Transfer Learning(迁移学习) 中科院发布最新迁移学习综述论文,带你全面了解40种迁移学习方法 作者:Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Senior Member, IEEE, Hui Xiong, Senior Member, IEEE, and Qing He 摘要:迁移学习的目的是通过迁移包含在不同但相关的源域中的知识来提高目标学习者在目标域上的学习表现。这样,可以减少对大量目标域数据的依赖,以构建目标学习者。由于其广泛的应用前景,迁移学习已经成为机器学习中一个热门和有前途的领域。虽然已经有一些关于迁移学习的有价值的和令人印象深刻的综述,但这些综述介绍的方法相对孤立,缺乏迁移学习的最新进展。随着迁移学习领域的迅速扩大,对相关研究进行全面的回顾既有必要也有挑战。本文试图将已有的迁移学习研究进行梳理使其系统化,并对迁移学习的机制和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。与以往的文章不同,本文从数据和模型的角度对40多种具有代表性的迁移学习方法进行了综述。还简要介绍了迁移学习的应用。为了展示不同迁移学习模型的性能,我们使用了20种有代表性的迁移学习模型进行实验。这些模型是在三个不同的数据集上执行的,即Amazon Reviews,Reuters-21578和Office-31。实验结果表明,在实际应用中选择合适的迁移学习模型是非常重要的。。 ![img](https://cdn.zhuanzhi.ai/vfiles/79674817aec2738a3f18d0d0af98ab1f) 网址: https://arxiv.org/abs/1911.02685 https://www.zhuanzhi.ai/paper/021fc3dc3356e0089f0e845408cc3aa4 ### 6、Multimodal Intelligence: Representation Learning, Information Fusion, and Applications(多模态智能论文综述:表示学习,信息融合与应用) 【IEEE Fellow何晓东&邓力】多模态智能论文综述:表示学习,信息融合与应用,259篇文献带你了解AI热点技术 京东 作者:Chao Zhang,Zichao Yang,Xiaodong He,Li Deng 【摘要】自2010年以来,深度学习已经使语音识别、图像识别和自然语言处理发生了革命性的变化,每种方法在输入信号中都只涉及一种模态。然而,人工智能的许多应用涉及到多种模态。因此,研究跨多种模态的建模和学习的更困难和更复杂的问题具有广泛的意义。本文对多模态智能的模型和学习方法进行了技术综述。视觉与自然语言的结合已成为计算机视觉和自然语言处理研究的一个重要领域。本文从学习多模态表示、多模态信号在不同层次上的融合以及多模态应用三个新角度对多模态深度学习的最新研究成果进行了综合分析。在多模态表示学习中,我们回顾了嵌入的关键概念,将多模态信号统一到同一个向量空间中,从而实现了多模态信号的交叉处理。我们还回顾了许多类型的嵌入的性质,构造和学习的一般下游任务。在多模态融合方面,本文着重介绍了用于集成单模态信号表示的特殊结构。在应用方面,涵盖了当前文献中广泛关注的选定领域,包括标题生成、文本到图像生成和可视化问题回答。我们相信这项综述可促进未来多模态智能的研究。 ![img](https://cdn.zhuanzhi.ai/vfiles/9698b373d1a4675e5ae9c5d82c71e9f9) 网址: https://arxiv.org/abs/1911.03977 https://www.zhuanzhi.ai/paper/efe8f986342d215a8179d447624801ee ### 7、Object Detection in 20 Years: A Survey(目标检测) 密歇根大学40页《20年目标检测综述》最新论文,带你全面了解目标检测方法 作者:Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye 摘要:目标检测作为计算机视觉中最基本、最具挑战性的问题之一,近年来受到了广泛的关注。它在过去二十年的发展可以说是计算机视觉历史的缩影。如果我们把今天的目标检测看作是深度学习力量下的一种技术美学,那么让时光倒流20年,我们将见证冷兵器时代的智慧。本文从目标检测技术发展的角度,对近四分之一世纪(20世纪90年代至2019年)的400余篇论文进行了广泛的回顾。本文涵盖了许多主题,包括历史上的里程碑检测器、检测数据集、度量、检测系统的基本构建模块、加速技术以及最新的检测方法。本文还综述了行人检测、人脸检测、文本检测等重要的检测应用,并对其面临的挑战以及近年来的技术进步进行了深入分析。 ![img](https://cdn.zhuanzhi.ai/vfiles/2ff870ec29a4ba2c3b93650aae02dffb) 网址: https://arxiv.org/abs/1905.05055 https://www.zhuanzhi.ai/paper/4d9c0fdcc5a0a2b796e44e214fc9cb02 ### 8、A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications(中文知识图谱) 作者:Tianxing Wu, Guilin Qi ,*, Cheng Li and Meng Wang 摘要:随着智能技术的不断发展,作为人工智能支柱的知识图谱以其强大的知识表示和推理能力受到了学术界和产业界的广泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。构建中文知识图谱的技术也在迅速发展,不同的中文知识图谱以支持不同的应用。同时,我国在知识图谱开发方面积累的经验对非英语知识图谱的开发也有很好的借鉴意义。本文旨在介绍中文知识图谱的构建技术及其应用,然后介绍了典型的中文知识图谱,此外我们介绍了构建中文知识图谱的技术细节,并介绍了了中文知识图谱的几种应用。 ![img](https://cdn.zhuanzhi.ai/vfiles/78fc092d812b502ae4dd7c790b36e118) 网址: https://www.mdpi.com/2071-1050/10/9/3245 ### 9、Advances and Open Problems in Federated Learning(联邦学习) 【重磅】联邦学习FL进展与开放问题万字综述论文,58位学者25家机构联合出品,105页pdf438篇文献 摘要:联邦学习(FL)是一种机器学习设置,在这种设置中,许多客户(例如移动设备或整个组织)在中央服务器(例如服务提供商)的协调下协作地训练模型,同时保持训练数据分散。FL体现了集中数据收集和最小化的原则,可以减轻由于传统的、集中的机器学习和数据科学方法所带来的许多系统隐私风险和成本。在FL研究爆炸性增长的推动下,本文讨论了近年来的进展,并提出了大量的开放问题和挑战。 ![img](https://cdn.zhuanzhi.ai/vfiles/cf40a467199d2a7f35628d8a1964d0ed) ![img](https://cdn.zhuanzhi.ai/vfiles/b61e3d30f766fedd39cc989cd15a836d) 网址: https://arxiv.org/abs/1912.04977 ### 10、Optimization for deep learning: theory and algorithms(深度学习优化理论算法) 【2019年末硬货】深度学习的最优化:理论和算法综述论文,60页pdf257篇文献 摘要:什么时候以及为什么能够成功地训练神经网络?本文概述了神经网络的优化算法和训练理论。首先,我们讨论了梯度爆炸/消失问题和更一般的不期望谱问题,然后讨论了实际的解决方案,包括仔细的初始化和归一化方法。其次,我们回顾了用于训练神经网络的一般优化方法,如SGD、自适应梯度方法和分布式方法,以及这些算法的现有理论结果。第三,我们回顾了现有的关于神经网络训练的全局问题的研究,包括局部极值的结果、模式连接、彩票假设和无限宽度分析。 ![img](https://cdn.zhuanzhi.ai/vfiles/d59d321e7da0a043d609e66fb8c5b438) 网址: https://www.zhuanzhi.ai/paper/2a5e7596942977067240c946ecd4bd47 --- ## 2020->2021必看的十篇「深度学习领域综述」论文 ### **1、Recent advances in deep learning theory(深度学习理论)** 陶大程院士等最新《深度学习理论进展》综述论文,41页pdf255篇文献阐述六大方面进展 作者:Fengxiang He,Dacheng Tao 摘要:深度学习通常被描述为一个实验驱动的领域,并不断受到缺乏理论基础的批评。这个问题已经部分地被大量的文献解决了,这些文献至今没有被很好地组织起来。本文对深度学习理论的最新进展进行了综述和整理。文献可分为六类: (1)基于模型复杂度和容量的深度学习泛化; (2)用于建模随机梯度下降及其变量的随机微分方程及其动力学系统,其特征是深度学习的优化和泛化,部分受到贝叶斯推理启发; (3)驱动动力系统轨迹的损失的几何结构; (4)深度神经网络的过参数化从积极和消极两个方面的作用; (5)网络架构中几种特殊结构的理论基础; (6)对伦理和安全及其与泛化性的关系的日益关注。 网址: https://www.zhuanzhi.ai/paper/b5ac0f259b59817b890b6c253123ee84 ### **2、Learning from Very Few Samples: A Survey(少样本学习)** 清华大学张长水等最新《少样本学习FSL》2020综述论文,30页pdf414篇参考文献 作者:Jiang Lu,Pinghua Gong,Jieping Ye,Changshui Zhang 摘要:少样本学习(FSL)在机器学习领域具有重要意义和挑战性。成功地从很少的样本中学习和归纳的能力是区分人工智能和人类智能的一个明显的界限,因为人类可以很容易地从一个或几个例子中建立他们对新颖性的认知,而机器学习算法通常需要数百或数千个监督样本来保证泛化能力。尽管FSL的悠久历史可以追溯到21世纪初,近年来随着深度学习技术的蓬勃发展也引起了广泛关注,但迄今为止,有关FSL的调研或评论还很少。在此背景下,我们广泛回顾了2000年至2019年FSL的200多篇论文,为FSL提供了及时而全面的调研。在本综述中,我们回顾了FSL的发展历史和目前的进展,原则上将FSL方法分为基于生成模型和基于判别模型的两大类,并特别强调了基于元学习的FSL方法。我们还总结了FSL中最近出现的几个扩展主题,并回顾了这些主题的最新进展。此外,我们重点介绍了FSL在计算机视觉、自然语言处理、音频和语音、强化学习和机器人、数据分析等领域的重要应用。最后,我们对调查进行了总结,并对未来的发展趋势进行了讨论,希望对后续研究提供指导和见解。 网址: https://www.zhuanzhi.ai/paper/ffc99a53aeb6629e21b9a42db76b9dd1 ### **3、A Survey on Knowledge Graphs: Representation, Acquisition and Applications(知识图谱研究综述论文)** 最新!知识图谱研究综述论文: 表示学习、知识获取与应用,25页pdf详述Knowledge Graphs技术趋势 作者:Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu 摘要:人类知识提供了对世界的认知理解。表征实体间结构关系的知识图谱已经成为认知和人类智能研究的一个日益流行的方向。在本次综述论文中,我们对知识图谱进行了全面的综述,涵盖了知识图谱表示学习、知识获取与补全、时序知识图谱、知识感知应用等方面的研究课题,并总结了最近的突破和未来的研究方向。我们提出对这些主题进行全视角分类和新的分类法。知识图谱嵌入从表示空间、得分函数、编码模型和辅助信息四个方面进行组织。对知识获取,特别是知识图谱的补全、嵌入方法、路径推理和逻辑规则推理进行了综述。我们进一步探讨了几个新兴的主题,包括元关系学习、常识推理和时序知识图谱。为了方便未来对知识图的研究,我们还提供了不同任务的数据集和开源库的集合。最后,我们对几个有前景的研究方向进行了深入的展望。 网址: https://www.zhuanzhi.ai/paper/00ef54883a71e52b240e26b2a6d25255 ### **4、A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications(生成式对抗网络综述论文)** 密歇根大学28页最新《GANs生成式对抗网络综述:算法、理论与应用》最新论文,带你全面了解GAN技术趋势 作者:Jie Gui,Zhenan Sun,Yonggang Wen,Dacheng Tao,Jieping Ye 摘要:生成对抗网络(GANs)是最近的热门研究主题。自2014年以来,人们对GAN进行了广泛的研究,并且提出了许多算法。但是,很少有全面的研究来解释不同GANs变体之间的联系以及它们是如何演变的。在本文中,我们尝试从算法,理论和应用的角度对各种GANs方法进行叙述。首先,详细介绍了大多数GANs算法的动机,数学表示形式和结构。此外,GANs已与其他机器学习算法结合用于特定应用,例如半监督学习,迁移学习和强化学习。本文比较了这些GANs方法的共性和差异。其次,研究了与GANs相关的理论问题。第三,说明了GANs在图像处理和计算机视觉,自然语言处理,音乐,语音和音频,医学领域以及数据科学中的典型应用。最后,指出了GANs未来的开放性研究问题。 网址: https://www.zhuanzhi.ai/paper/8b531e33d7c934d81892a029bc080a9c ### **5、A Survey on Causal Inference(因果推断综述论文)** 最新「因果推断Causal Inference」综述论文38页pdf,阿里巴巴、Buffalo、Georgia、Virginia 作者:Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang 摘要:数十年来,因果推理是一个跨统计、计算机科学、教育、公共政策和经济学等多个领域的重要研究课题。目前,与随机对照试验相比,利用观测数据进行因果关系估计已经成为一个有吸引力的研究方向,因为有大量的可用数据和较低的预算要求。随着机器学习领域的迅速发展,各种针对观测数据的因果关系估计方法层出不穷。在这项综述中,我们提供了一个全面的综述因果推理方法下的潜在结果框架,一个众所周知的因果推理框架。这些方法根据是否需要潜在结果框架的所有三个假设分为两类。对于每一类,分别对传统的统计方法和最近的机器学习增强方法进行了讨论和比较。并介绍了这些方法的合理应用,包括在广告、推荐、医药等方面的应用。此外,还总结了常用的基准数据集和开放源代码,便于研究者和实践者探索、评价和应用因果推理方法。 网址: https://www.zhuanzhi.ai/paper/a37f27ed97e5318b30be2999e9a768c3 ### **6、Pre-trained Models for Natural Language Processing: A Survey(预训练语言模型)** 【复旦大学】最新《预训练语言模型》2020综述论文大全,50+PTMs分类体系,25页pdf205篇参考文献 作者:Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang 摘要:近年来,预训练模型(PTMs)的出现将自然语言处理(NLP)带入了一个新的时代。在这项综述中,我们提供了一个全面的PTMs调研。首先简要介绍了语言表示学习及其研究进展。然后,我们根据四种观点对现有的PTMs进行了系统的分类。接下来,我们将描述如何将PTMs的知识应用于下游任务。最后,我们概述了未来PTMs研究的一些潜在方向。本调查旨在为理解、使用和开发各种NLP任务的PTMs提供实际指导。 网址: https://www.zhuanzhi.ai/paper/09d78eda59ebfb6f51a54a3ba0a4c4b1 ### **7、A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources(异质图网络嵌入)** 异质图嵌入综述: 方法、技术、应用和资源, 23页pdf 作者:Xiao Wang, Deyu Bo, Chuan Shi, Shaohua Fan, Yanfang Ye, Philip S. Yu 摘要: 异质图(Heterogeneous Graph, HG)也称为异质信息网络(Heterogeneous Information Network, HIN),在现实世界中已经无处不在。异质图嵌入(Heterogeneous Graph Embedding, HGE),旨在在低维的空间中学习节点表示,同时保留异质结构和语义用于下游任务(例如,节点/图分类,节点聚类,链接预测),在近年来受到了广泛的关注。在综述中,我们对异质图嵌入的方法和技术的最新进展进行了全面回顾,探索了异质图嵌入的问题和挑战,并预测了该领域的未来研究方向。 该论文的主要贡献如下: 讨论了与同质图相比,异质图的异质性带来的独特挑战 。该论文对现有的异质图嵌入方法进行了全面的调研,并基于它们在学习过程中使用的信息进行分类,以解决异质性带来的特定的挑战。 对于每类代表性的异质图嵌入方法和技术,提供详细的介绍并进一步分析了其优缺点。此外,该论文首次探索了异质图嵌入方法在现实工业环境中的可转换性和适用性。 总结了开源代码和基准数据集,并对现有的图学习平台进行了详细介绍,以促进该领域的未来研究和应用。 探讨异质图嵌入的其他问题和挑战,并预测该领域的未来研究方向。 网址: https://arxiv.org/abs/2011.14867 ### **8、Graph Neural Networks: Taxonomy, Advances and Trends(图神经网络)** 太原理工最新《图神经网络:分类,进展,趋势》综述论文,50页pdf400篇文献 作者:Yu Zhou,Haixia Zheng,Xin Huang 摘要:图神经网络为根据特定任务将真实世界的图嵌入低维空间提供了一个强大的工具包。到目前为止,已经有一些关于这个主题的综述。然而,它们往往侧重于不同的角度,使读者看不到图神经网络的全貌。本论文旨在克服这一局限性,并对图神经网络进行了全面的综述。首先,我们提出了一种新的图神经网络分类方法,然后参考了近400篇相关文献,全面展示了图神经网络的全貌。它们都被分类到相应的类别中。为了推动图神经网络进入一个新的阶段,我们总结了未来的四个研究方向,以克服所面临的挑战。希望有越来越多的学者能够理解和开发图神经网络,并将其应用到自己的研究领域。 网址: https://www.zhuanzhi.ai/paper/5d0088fdc236ec1a522b91077290e6f2 ### **9、Efficient Transformers: A Survey(高效Transformer)** 【Google】最新《高效Transformers》综述大全,Efficient Transformers: A Survey 作者:Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler 摘要:Transformer模型架构最近引起了极大的兴趣,因为它们在语言、视觉和强化学习等领域的有效性。例如,在自然语言处理领域,Transformer已经成为现代深度学习堆栈中不可缺少的主要部分。最近,提出的令人眼花缭乱的X-former模型如Linformer, Performer, Longformer等这些都改进了原始Transformer架构的X-former模型,其中许多改进了计算和内存效率。为了帮助热心的研究人员在这一混乱中给予指导,本文描述了大量经过深思熟虑的最新高效X-former模型的选择,提供了一个跨多个领域的现有工作和模型的有组织和全面的概述。 图片 网址: https://www.zhuanzhi.ai/paper/6f9193ca17c92d58e9e93a21335039f1 ### **10、Self-supervised Learning: Generative or Contrastive(自监督学习)** 作者:Xiao Liu, Fanjin Zhang, Zhenyu Hou, Zhaoyu Wang, Li Mian, Jing Zhang, Jie Tang 摘要:深度监督学习在过去的十年中取得了巨大的成功。然而,它依赖于手工标签的缺陷和易受攻击的弱点促使人们探索更好的解决方案。作为另一种学习方式,自监督学习以其在表征学习领域的飞速发展吸引了众多研究者的关注。自监督表示学习利用输入数据本身作为监督,并使得几乎所有类型的下游任务从中受益。在这项综述中,我们着眼于新的自监督学习方法,用于计算机视觉、自然语言处理和图学习。我们全面回顾了现有的实证方法,并根据它们的目的将它们归纳为三大类:生成型、对比型和生成-对比型(对抗型)。我们进一步研究了相关的理论分析工作,以提供对自监督学习如何工作的更深层次的思考。最后,我们简要讨论了自监督学习有待解决的问题和未来的发展方向。 网址: https://www.zhuanzhi.ai/paper/3bcc4f616c3e16d8b13a95a32e335101 --- ## 2021->2022必看的十篇「深度学习领域综述」论文 ### 1、周志华教授:关于深度学习的一点思考 作者:周志华 摘要:深度学习已被广泛应用到涉及图像、视频、语音等的诸多任务中并取得巨大成功。如 果我们问“深度学习是什么?”很可能会得到这样的回答:“深度学习就是深度神经网 络”。至少在目前,当“深度学习”作为一个术语时几乎就是“深度神经网络”的同义词, 而当它指向一个技术领域时则如 SIAM News 头版文章所称[1],是“机器学习中使用深度 神经网络的子领域”。关于深度学习有很多问题还不清楚。例如深度神经网络为什么要“深”?它成功背 后的关键因素是什么?深度学习只能是深度神经网络吗?本文将分享一些我们关于深度 学习的粗浅思考。 网址: https://mp.weixin.qq.com/s/yKzMxJ2pwwLYSO8ry0sJIQ ### 2、Attention Mechanisms in Computer Vision: A Survey(注意力机制) 清华&南开最新「视觉注意力机制Attention」综述论文,带你全面了解六大类注意力机制方法 作者: Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu 摘要:人类可以自然有效地在复杂的场景中找到显著区域。在这种观察的推动下,注意力机制被引入到计算机视觉中,目的是模仿人类视觉系统的这方面。这种注意力机制可以看作是一个基于输入图像特征的动态权值调整过程。注意力机制在图像分类、目标检测、语义分割、视频理解、图像生成、三维视觉、多模态任务和自监督学习等视觉任务中取得了巨大的成功。本文综述了计算机视觉中的各种注意力机制,并对其进行了分类,如通道注意力、空间注意力、时间注意力和分支注意力; 相关的存储库https://github.com/MenghaoGuo/Awesome-Vision-Attentions专门用于收集相关的工作。本文还提出了注意机力制研究的未来方向。 网址: https://www.zhuanzhi.ai/paper/2329d809f32ca0840bd93429d1cef0fe ### 3、Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges(几何深度学习) 重磅!《几何深度学习》新书发布,帝国理工/DeepMind等图ML大牛共同撰写,160页pdf阐述几何DL基础原理和统一框架 几何深度学习是一种从对称性和不变性的角度对大量ML问题进行几何统一的尝试。这些原理不仅奠定了卷积神经网络的突破性性能和最近成功的图神经网络的基础,而且也提供了一种原则性的方法来构建新型的问题特定的归纳偏差。 在本文中,我们做了一个适度的尝试,将Erlangen项目的思维模式应用到深度学习领域,最终目标是获得该领域的系统化和“连接点”。我们将这种几何化尝试称为“几何深度学习”,并忠实于Felix Klein的精神,提出从对称性和不变性的原则推导出不同的归纳偏差和网络架构。特别地,我们将重点放在一类用于分析非结构集、网格、图和流形的神经网络上,并表明它们可以被统一地理解为对应这些域的结构和对称性的方法。 我们相信这篇文章将吸引深度学习研究人员、实践者和爱好者的广泛受众。新手可以用它来概述和介绍几何深度学习。经验丰富的深度学习专家可能会发现从基本原理推导熟悉架构的新方法,也许还会发现一些令人惊讶的联系。实践者可以获得如何解决各自领域问题的新见解。 https://geometricdeeplearning.com/ 网址: https://www.zhuanzhi.ai/paper/1f6bbac326bd8b7c0c8554acaa169012 ### 4、A Survey of Transformers(Transformer综述论文) 复旦大学邱锡鹏教授等「Transformers全面综述」论文 作者:Tianyang Lin,Yuxin Wang,Xiangyang Liu,Xipeng Qiu 摘要:Transformers 在自然语言处理、计算机视觉和音频处理等许多人工智能领域都取得了巨大的成功。因此,自然会引起学术界和工业界研究人员的极大兴趣。到目前为止,各种各样的Transformer变种(即X-formers)已经被提出,但是,关于这些Transformer器变种的系统和全面的文献综述仍然缺乏。在这项综述中,我们提供了一个全面的Transformer综述。我们首先简单介绍了普通的Transformer,然后提出了一个x-former的新分类。接下来,我们将从三个方面介绍不同的x -former架构修改,预训练和应用。最后,展望了未来的研究方向。 网址: https://www.zhuanzhi.ai/paper/f03a47eb6ddb5d23c07f51662f3220a0 ### 5、Model Complexity of Deep Learning: A Survey(深度学习模型复杂性) 裴健等发布首篇「深度学习模型复杂性」综述论文,44页pdf阐述深度学习模型框架、模型规模、优化过程和数据复杂性 作者:Xia Hu,Lingyang Chu,Jian Pei,Weiqing Liu,Jiang Bian 摘要: 模型复杂性是深度学习的一个基本问题。 本文对深度学习中模型复杂性的最新研究进行了系统的综述。深度学习的模型复杂度可分为表达能力和有效模型复杂度。 从模型框架、模型规模、优化过程和数据复杂性四个方面回顾了现有的研究成果。我们还讨论了深度学习模型复杂性的应用,包括理解模型泛化能力、模型优化、模型选择和设计。 最后,我们提出几个有趣的未来方向。 网址: https://www.zhuanzhi.ai/paper/f7c683dfd6eb2f07eba0ed31d337345c ### 6、Towards Out-Of-Distribution Generalization: A Survey(分布外泛化) 清华大学崔鹏等最新「分布外泛化(Out-Of-Distribution Generalization)」 综述论文 作者:Zheyan Shen,Jiashuo Liu,Yue He,Xingxuan Zhang,Renzhe Xu,Han Yu,Peng Cui 摘要: 经典的机器学习方法是建立在i.i.d.假设的基础上的,即训练和测试数据是独立同分布的。然而,在真实场景中,i.i.d.假设很难得到满足,导致经典机器学习算法在分布移位下的性能急剧下降,这表明研究非分布泛化问题的重要性。Out-of-Distribution分布外 (OOD)泛化问题解决了测试分布未知且与训练不同的挑战性设置。本文首次系统、全面地探讨了OOD泛化问题,从定义、方法、评价到启示和未来发展方向。首先,给出了OOD泛化问题的形式化定义。其次,根据现有方法在整个学习流程中的位置,将其分为无监督表示学习、有监督模型学习与优化三部分,并详细讨论了每一类的典型方法。然后,我们展示了不同类别的理论联系,并介绍了常用的数据集和评价指标。最后,对全文文献进行了总结,并对OOD泛化问题提出了未来的研究方向。本次综述OOD泛化文献可在[http://out-of-distribution-generalization.com上找到。](http://out-of-distribution-generalization.xn--com-x28ds3qsp2a./) 网址: https://www.zhuanzhi.ai/paper/ba690c59e0f80fc34e779b1daa769988 ### 7、Deep Long-Tailed Learning: A Survey(深度长尾学习) NUS颜水成等发布首篇《深度长尾学习》综述,20页pdf172篇文献阐述长尾类别深度学习进展 作者:Yifan Zhang, Bingyi Kang, Bryan Hooi, Shuicheng Yan, Jiashi Feng 摘要:深度长尾学习是视觉识别中最具挑战性的问题之一,其目标是从大量遵循长尾类分布的图像中训练出性能良好的深度模型。在过去的十年中,深度学习已经成为一种学习高质量图像表示的强大的识别模型,并导致了一般视觉识别的显著突破。然而,长尾类不平衡是实际视觉识别任务中普遍存在的问题,这种不平衡往往限制了基于深度网络的识别模型在实际应用中的实用性,因为长尾类容易偏向主导类,在尾类上的表现较差。为了解决这一问题,近年来人们进行了大量的研究,在深度长尾学习领域取得了可喜的进展。鉴于该领域的快速发展,本文对深度长尾学习的最新进展进行了综述。具体地说,我们将已有的深度长尾学习研究分为三类(即类重平衡、信息增强和模块改进),并根据这三类对这些方法进行了详细的回顾。之后,我们通过一种新提出的评价指标,即相对准确性,来评估它们在多大程度上解决了阶级失衡问题,从而对几种最先进的方法进行了实证分析。最后,我们强调了深度长尾学习的重要应用,并确定了未来研究的几个有前景的方向。 网址: https://www.zhuanzhi.ai/paper/195ac6db0eea180eb9d5b5ef8f4ab0f4 ### 8、Trustworthy AI: From Principles to Practices(可信人工智能) 京东等学者发布《可信赖人工智能》综述论文,62页pdf449篇文献全面阐述可信赖AI的理论与方法 作者:Bo Li,Peng Qi,Bo Liu,Shuai Di,Jingen Liu,Jiquan Pei,Jinfeng Yi,Bowen Zhou 摘要: 人工智能(AI)技术的发展使各种应用系统得以应用于现实世界,影响着人们的日常生活。然而,目前很多人工智能系统被发现容易受到无形的攻击,对弱势群体存在偏见,缺乏对用户隐私的保护等,这不仅降低了用户体验,也侵蚀了社会对所有人工智能系统的信任。在这篇综述中,我们努力为人工智能从业者提供一个全面的指南,以构建可信赖的人工智能系统。我们首先介绍了人工智能可信度的重要方面的理论框架,包括稳健性、泛化性、可解释性、透明度、再现性、公平性、隐私保护、与人类价值观的一致性和问责性。然后我们调研了行业中在这些方面的领先方法。为了统一目前零散的人工智能方法,我们提出了一种系统的方法,考虑人工智能系统的整个生命周期,从数据采集到模型开发,到开发和部署,最后到持续监测和治理。在这个框架中,我们向从业者和社会利益相关者(如研究人员和监管机构)提供具体的行动项目,以提高人工智能的可信度。最后,我们确定可信赖的人工智能系统未来发展的关键机遇和挑战,我们确定需要向全面可信赖的人工智能系统转变范式。 网址: https://www.zhuanzhi.ai/paper/00386996069b8168827d03f0c809a462 ### 9、Masked Autoencoders Are Scalable Vision Learners(简单实用的自监督学习掩码自编码MAE) 何恺明最新一作论文:简单实用的自监督学习掩码自编码MAE,ImageNet-1K 87.8%! 作者:Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li,Piotr Dollár,Ross Girshick 摘要: 何恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单:对输入图像进行块随机mask并对遗失像素进行重建。它基于以下两个核心设计: 我们设计了一种非对称编解码架构,其中编码器仅作用于可见块(无需mask信息),而解码器则通过隐表达与mask信息进行原始图像重建; 我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。 上述两种设计促使我们可以更高效的训练大模型:我们加速训练达3x甚至更多,同时提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能:仅需ImageNet-1K,ViT-Huge取得了87.8%的top1精度 。下游任务的迁移取得了优于监督训练的性能,证实了所提方案的可扩展能力。 网址: https://www.zhuanzhi.ai/paper/1dbb3e8f5e16dc9a048a02ceee8eb617 ### 10、徐宗本院士谈人工智能的10个重大数理基础问题 徐宗本院士:人工智能的10个重大数理基础问题 作为新一代信息技术的代表,人工智能已经广泛应用于科学、社会、经济、管理的方方面面,已经和正在成为创新驱动发展的核心驱动力之一。然而,就其技术发展而言,人工智能还只是突破了从“不可用” 到“可以用”的技术拐点,从“可以用”到“很好用” “用得好”还存在诸多技术瓶颈,正呼唤重大技术变革。 技术变革的先导是理论创新,即基础研究。它是指对事物本质和规律的科学化探寻和揭示,是启发、促动技术变革的激发源和理论依据。理论创新既应包括对原有理论体系或框架的新突破、对原有理论 和方法的新修正和新发展,也包括对理论禁区和未知领域的新探索。 本文主要关注人工智能技术发展当前亟待解决的重大数理基础问题。为什么要特别关注 AI 的数理基础问题呢?这是因为当前人工智能技术和发展主要是靠“算例、算法、算力”所驱动的,其基础是数据,其核心是算法,这二者都深刻地以数学为基础。数学主要提供对所研究问题的形式化手段、模型化工具和科学化语言。没有形式化就没有程式化和计算机化,没有模型化就没有定量化和知识化,没有科学化就没有系统化和现代化。所以,数学在科学技术中具有独特的作用和价值。对人工智能而言,数学不仅仅是工具,还是技术内涵本身, 而且常常也是最能体现本质、原始创新的部分。 本文提出并阐述人工智能研究与应用中凾待解决的10个重大数理基础问题,包括: (1) 大数据的统计学基础; (2) 大数据计算的基础算法; (3) 数据空间的结构与特性; (4) 深度学习的数学机理; (5) 非正规约束下的最优输运; (6) 如何学习学习方法论; (7) 如何突破机器学习的先验假设; (8) 机器学习的自动化; (9) 知识推理与数据学习的融合; (10) 智能寻优与人工智能芯片问题. ## 2022->2023必看的十篇「深度学习领域综述」论文] ### **1、重庆邮电大学校长高新波教授:人工智能未来发展趋势分析** [**重庆邮电大学校长高新波教授:人工智能未来发展趋势分析**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247589696&idx=2&sn=949de690d292a63fe8871c08da6dad50&chksm=fc877e53cbf0f7454ae1790bb46c0c3a2ae43e10698d63d9ecba35a3f11ad71e597b77e5f048&scene=21#wechat_redirect) **作者**:高新波 **摘要**: 如果按照聪明和笨、勤奋和懒惰来划分,世人大致可分为四类:聪明且勤奋、笨但勤奋、聪明却懒惰、笨且懒惰。一般而言,前两种人成功的几率会比较大。因此,人们总结出“勤能补拙是良训,一份汗水一份才”的成功经验。进而得出了 “聪明人都在下笨功夫,愚蠢的人都在找捷径”这样看似很有道理的名言警句。与此同时,人们又常说“聪明是一种天赋,勤奋是一种选择”,因此大家往往会把勤奋看成一种美德,而把聪明贬低为“小聪明”。但是,在现实生活中靠勤奋成功的人,总是给人一种很悲壮的感觉,令人尊重但并不让人羡慕。如果可以选择,我们当然希望选择聪明。 聪明往往是指一个人机智灵活,学习中具有举一反三、触类旁通的能力。这样的人不费多少力气就能掌握某种知识和技能,而且善于解决复杂问题,尤其是以前没有处理过的问题。而勤奋则是指认认真真努力干好每一件事情,不怕吃苦,踏实肯干。这样的人默默持久的坚持,有一种水滴石穿、永不言弃的精神。 经过了60多年的发展,人工智能(Artificial Intelligence, AI)就是父母口中所说的那个别人家的孩子,看上去毫不费力却取得了很大的成功。其实,今天的AI只是一个勤奋、听话、精力充沛、几近完美的“笨小孩”。比如,打败围棋九段柯洁和李世石的AlphaGo存储了多达100万盘棋谱,它正是通过学习这些数据才总结出柯洁和李世石下棋的策略,进而提前做出布局。而柯洁和李世石两个人加起来终其一生也不可能下到100万盘棋。尽管后来AlphaGo的升级版AlphaGo Zero已经无需再输入棋谱,而是从零基础开始,通过自己左右互搏自学成才。AlphaGo Zero不断探索和累积经验,现在已碾压AlphaGo。但是,我们却很难把AlphaGo和AlphaGo Zero与“聪明”关联起来。因为它们的成功更多来自“勤能补拙”,就像是我们自己家的那个懂事勤奋又刻苦的孩子,确实取得了很大成功,但是着实相当不易,非常辛苦!我们由衷地为孩子高兴,却又总觉得苦了孩子,总希望他们能多一点聪明,少一点辛劳!同样的道理,我们也希望未来的AI更多地赢在“智能”而不是“人工”上。 对于未来AI的发展,大家都做出了很多预测。概括起来,大致可以总结为以下六个方面的发展趋势。如果在这些方面不断取得新突破,就会使AI不仅勤奋而且聪明,可更好地满足人们的需要。 **网址**: https://mp.weixin.qq.com/s/qEjGFrxYb7LaBHDYaznS7Q ### **2、Physics-Informed Machine Learning: A Survey on Problems, Methods and Applications(物理信息机器学习)** [**什么是物理信息机器学习(PIML)?清华最新《基于物理信息的机器学习:问题、方法和应用》综述,42页pdf全面阐述PIML进展**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247613721&idx=1&sn=9628c85481da788792f3214718a1bdca&chksm=fc87dc0acbf0551c821e8dc4c2c3bb914587f4cc05bba659bb47c969004a06ed31f98ea8ab4b&scene=21#wechat_redirect) ****![img](https://cdn.zhuanzhi.ai/vfiles/97972284f052c9069e29e83f3a59d426) ------ 数据驱动机器学习的最新进展已经彻底改变了计算机视觉、强化学习以及许多科学和工程领域。在许多现实世界和科学问题中,生成数据的系统是受物理定律支配的。最近的研究表明,通过结合物理先验和收集到的数据,它为机器学习模型提供了潜在的好处,这使得机器学习和物理的交叉成为一个流行的范式。**在本次综述中,我们提出了一种被称为物理信息机器学习(PIML)的学习范式,它旨在建立一个模型,利用经验数据和可用的物理先验知识来提高一组涉及物理机制的任务的性能**。我们从机器学习任务、物理先验的表示和融合物理先验的方法三个角度系统地回顾了基于物理的机器学习的最新发展。根据该领域目前的发展趋势,我们提出了几个重要的开放研究问题。我们认为,将不同形式的物理先验编码到模型架构、优化器、推理算法和重要的领域特定应用(如逆向工程设计和机器人控制)中,在基于物理的机器学习领域中还远远没有得到充分的探索。我们相信这项研究将鼓励机器学习领域的研究人员积极参与到基于物理的机器学习的跨学科研究中来。 https://www.zhuanzhi.ai/paper/01607bcd00ae3cab2bbac713236498ea ![img](https://cdn.zhuanzhi.ai/vfiles/f6ba516a25d00402141b24ba41d6cec5) **网址**: https://www.zhuanzhi.ai/paper/01607bcd00ae3cab2bbac713236498ea **[信息论揭开深度学习黑匣子?纽约大学研究员Ravid博士论文《深度神经网络信息流》139页pdf探究信息瓶颈来解释深度学习理论](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247587955&idx=1&sn=065f5385c96f4d3395e60aab2786e59c&chksm=fc877960cbf0f076472f0e0fd7178a1a6ffac5bec4eadd36f449b43e505e261bb339aca95e7d&scene=21#wechat_redirect) ** ### **3、智能计算** [**什么是智能计算?之江实验室等90页pdf《智能计算:进展、挑战与未来》全面阐述智能计算理论基础,智能和计算的技术融合,重要的应用**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247614206&idx=1&sn=4de7f34e28915bfb25ce5b6cb670d61b&chksm=fc87dfedcbf056fb3e970c66113236e735ce761d37337c4d67d75ff74d290a24a7a2fcaac65c&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/5b8fd5bba21176ce6a040f02fb708a0e) ------ 计算是人类文明发展的重要动力。**近年来,我们见证了智能计算的出现,一种新的计算范式正在重塑传统计算,以新的计算理论、架构、方法、系统和应用在大数据、人工智能和物联网时代推动着数字革命。智能计算极大地拓宽了计算的范围,从传统的数据计算扩展到日益多样化的计算范式,如感知智能、认知智能、自主智能和人机融合智能**。长期以来,智能和计算经历了不同的演变和发展路径,但近年来却日益交织在一起:智能计算不仅是智能导向的,而且是智能驱动的。这种交叉融合促进了智能计算的出现和快速发展。智能计算仍处于初级阶段,智能计算在理论、系统和应用方面的大量创新有望很快出现。**我们提出了第一个关于智能计算的文献综合调查,涵盖了其理论基础,智能和计算的技术融合,重要的应用,挑战,和未来的展望**。我们相信这项调查是非常及时的,它将为学术和工业研究人员和从业者提供全面的参考和有价值的见解。 https://www.zhuanzhi.ai/paper/bc5925fc771a07607f776bb668320cd5 ****![img](https://cdn.zhuanzhi.ai/vfiles/e924019824ff5cfc160883780f34fbe3) ### **4、扩散模型三综述(Diffusion Model)** [**最近大火的“扩散模型”首篇综述来了!北大最新《扩散模型:方法和应用》综述,23页pdf涵盖200页文献**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247608203&idx=1&sn=5785a2b9422e30bfcffed9bf379106b6&chksm=fc87c698cbf04f8e23a3c65b6bdf9d5aaff25f512a941f91ef4b9a1b91347d58277ffd9d088e&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/5988b7d4876130db2227e33998e8fa98) 扩散模型是一类具有丰富理论基础的深度生成模型,在各种任务中都取得了令人印象深刻的结果。尽管扩散模型比其他最先进的模型取得了令人印象深刻的质量和样本合成多样性,但它们仍然存在昂贵的采样程序和次优的似然估计。近年来,研究人员对扩散模型性能的改进表现出极大的热情。**在这篇文章中,我们提出了扩散模型的现有变体的第一个全面的综述。具体地说,我们提供了扩散模型的第一个分类,并将它们的变体分为三种类型,即采样-加速增强、可能性-最大化增强和数据泛化增强。我们还详细介绍了其他五种生成模型(即变分自编码器、生成对抗网络、归一化流、自回归模型和基于能量的模型),并阐明扩散模型和这些生成模型之间的联系**。然后对扩散模型的应用进行了深入的研究,包括计算机视觉、自然语言处理、波形信号处理、多模态建模、分子图生成、时间序列建模和对抗性纯化。此外,我们提出了关于发展这一生成模式的新观点。 https://www.zhuanzhi.ai/paper/edf9ba1200e0740b307a923e23f4c96 ![img](https://cdn.zhuanzhi.ai/vfiles/80c1b009b7013118976e6706961f851f) **[扩散模型综述又一弹!西湖大学李子青等最新《生成式扩散模型》综述,18页pdf详解扩散模型基础、方法体系和应用](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247608614&idx=1&sn=aa352c22025a677831e8d509fd91a54c&chksm=fc87c835cbf04123e0a71832ca300bb51bab8eaf8d5ab10653191b514e0620a4e0ab92f7e99e&scene=21#wechat_redirect) ** ![img](https://cdn.zhuanzhi.ai/vfiles/5a4e163e0ef0988a78a213b3c1d01231) A Survey on Generative Diffusion Model Hanqun Cao, Cheng Tan, Zhangyang Gao, Guangyong Chen, Pheng-Ann Heng, Senior Member, IEEE, and Stan Z. Li, Fellow, IEEE 由于深度潜在表示,深度学习在生成任务中显示出巨大的潜力。生成模型是一类可以根据某些隐含参数随机生成观察结果的模型。近年来,扩散模型以其强大的生成能力成为生成模型的一个新兴门类。如今,已经取得了巨大的成就。除了计算机视觉、语音生成、生物信息学和自然语言处理外,该领域还将探索更多的应用。然而,扩散模型有其生成过程缓慢的天然缺陷,导致许多改进的工作。**本文对扩散模型的研究领域进行了综述。我们首先阐述两项标志性工作的主要问题,DDPM及DSM**。然后,我们提出了一系列先进的技术来加速扩散模型——训练计划、无训练采样、混合建模以及得分与扩散的统一。对于现有的模型,我们还根据具体的NFE提供了FID score, IS, NLL的基准。此外,还介绍了扩散模型的应用,包括计算机视觉、序列建模、音频、科学人工智能等。最后,对该领域的研究现状进行了总结,指出了研究的局限性和进一步的研究方向。 https://www.zhuanzhi.ai/paper/1fee483da0347749193cb9e6848254cc **![img](https://cdn.zhuanzhi.ai/vfiles/3bc2257b9951e4f7bc54180b76b6037c) ** **[大“火”的扩散模型综述又一弹!UCF等《视觉扩散模型》综述,20页pdf详述三种通用的扩散建模框架](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247608843&idx=1&sn=eb6d7eaca842c2ca7efb1b8af0d531e8&chksm=fc87cb18cbf0420e7047bab586b20cb248298e69184d304ecedcd36cd239a432ff4f1aaa1bf9&scene=21#wechat_redirect) ** ![img](https://cdn.zhuanzhi.ai/vfiles/766bd27dad9a31c348c40f4f74ddbe98) 去噪扩散模型是计算机视觉中的一个新兴课题,在生成建模领域显示了显著的结果。扩散模型是基于正向扩散和反向扩散两个阶段的深度生成模型。在正向扩散阶段,通过加入高斯噪声对输入数据进行逐级扰动。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。扩散模型因其生成样本的质量和多样性而受到广泛赞赏,尽管其已知的计算负担,即采样过程中涉及的大量步骤导致速度较低。**本文对应用于视觉的去噪扩散模型的文章进行了全面的回顾,包括该领域的理论和实践贡献**。首先,我们确定并提出了三种通用的扩散建模框架,它们是基于去噪扩散概率模型、噪声条件评分网络和随机微分方程。我们进一步讨论了扩散模型和其他深层生成模型之间的关系,包括变分自编码器、生成对抗网络、基于能量的模型、自回归模型和归一化流。然后,我们介绍了一种多视角分类扩散模型在计算机视觉中的应用。最后,我们说明了扩散模型目前的局限性,并展望了一些有趣的未来研究方向。 https://www.zhuanzhi.ai/paper/3b8069429047d95eed52a50e7b1fdece **![img](https://cdn.zhuanzhi.ai/vfiles/e661c64e509309b6a8af0d8d74709965) ** ### **5、知识图谱** [**「新一代知识图谱关键技术」最新2022进展综述**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247607915&idx=1&sn=694cfbc1119affea11acc885c7ffeb04&chksm=fc87c778cbf04e6e9939f02a5dbfa9f6251bed85e4e7a0eb6d433a6323d13055eb9c32a1dcac&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/b9dec016385057353ffc70b415e0bb0a) 近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体 的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等.然而,在大数据环境和新 基建背景下,数据对象和交互方式的日益丰富和变化, **对新一代知识图谱在基础理论、体系架构、关键技 术等方面提出新的需求,带来新的挑战.将综述国内外新一代知识图谱的关键技术研究发展现状,重点 从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新 与推理3方面对国内外研究的最新进展进行归纳、比较和分析**.最后,就未来的技术挑战和研究方向进 行展望。 https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829 ****![img](https://cdn.zhuanzhi.ai/vfiles/80597936eaa550b2735f0cb6a33a9ee2) [**什么是事件知识图谱?中科院计算所发布《事件知识图谱综述》综述论文,阐述从历史、本体、实例和应用视角定义EKG**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247578152&idx=1&sn=412f53989558a0617f13c73afde35b54&chksm=fc87533bcbf0da2d83f6a92c49a6a6e9f18d7a7fcd2966fb01e99e1f1793ae14c7435a84454f&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/60eddac8ab33acfa993da567adf98026) 除了以实体为中心的知识(通常以知识图谱(knowledge Graph, KG)的形式组织起来),事件也是世界上必不可少的一种知识,它引发了以事件为中心的知识表示形式(Event KG, EKG)的兴起。它在许多机器学习和人工智能应用中发挥着越来越重要的作用,如智能搜索、问题回答、推荐和文本生成。**本文从历史、本体、实例和应用视图等方面对EKG进行了全面的综述。**为了更全面地描述EKG,我们将重点关注它的历史、定义、模式归纳、获取、相关的代表性图形/系统和应用程序。研究了其发展过程和趋势。我们进一步总结了未来EKG研究的发展方向。 https://www.zhuanzhi.ai/paper/bf7ce841fad61ba3514d25683edbfb68 [**复旦发布首篇《多模态知识图谱构建与应用》综述论文,全面阐述现有MMKG技术体系与进展**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247587377&idx=1&sn=e7bc3ea35d187720899bb3f0db9ee4d0&chksm=fc877722cbf0fe347810a956643dda8b3e2f67b58af83b78f264b0f54472cbf9310810be2e53&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/01b77282e7d81f3807989d1ca719595d) 近年来,以知识图谱快速增长的知识工程又重新兴起。然而,现有的知识图谱大多用纯符号表示,这损害了机器理解现实世界的能力。知识图谱的多模态化是实现人机智能的必然步骤。这一努力的结果是多模态知识图(MMKGs)。**在本研究中,我们首先给出了由文本和图像构成的多模态任务的定义,然后对多模态任务和技术进行了初步探讨。然后,我们系统地回顾了MMKG在构建和应用方面所面临的挑战、进展和机遇,并详细分析了不同解决方案的优势和劣势。我们通过与MMKG相关的开放研究问题来完成这项综述。**** **https://www.zhuanzhi.ai/paper/eb595148463eb3d796db1617db88e43a ![img](https://cdn.zhuanzhi.ai/vfiles/c60eff43e1d71316c1bfb770f4365816) ### 6、图神经网络 [**「图神经网络」最新2022综述**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247578406&idx=1&sn=57497edbeec4ea7d0b0799b8aa61dd0a&chksm=fc875235cbf0db237cffbe8a5fce33860748c5c5f20541cf4641d93d4b70969ca463f55c982a&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/67ab45c3adff0c8f97c2e1a2dc24b804) 近几年来,将深度学习应用到处理和图结构数据相关的任务中越来越受到人们的关注.图神经 网络的出现使其在上述任务中取得了重大突破,比如在社交网络、自然语言处理、计算机视觉甚至生命 科学等领域得到了非常广泛的应用.图神经网络可以把实际问题看作图中节点之间的连接和消息传播 问题,对节点之间的依赖关系进行建模,从而能够很好地处理图结构数据.**鉴于此,系统综述了图神经网络模型以及应用.**首先从谱域、空间域和池化3方面对图卷积神经网络进行了阐述.然后,描述了基于注意 力机制和自编码器的图神经网络模型,并补充了一些其他方法实现的图神经网络.其次,总结了针对图 神经网络能不能做大做深等问题的讨论分析.进而,概括了图神经网络的4个框架.还详细说明了在图 神经网络在自然语言处理、计算机视觉等方面的应用.最后,对图神经网络未来的研究进行了展望和总 结.相较于已有的图神经网络综述文章,详细阐述了谱理论知识,并对基于谱域的图卷积神经网络体系 进行全面总结.同时,给出了针对空间域图卷积神经网络效率低的改进模型这一新的分类标准.并总结 了针对图神经网络表达能力、理论保障等的讨论分析,增加了新的框架模型.在应用部分,阐述了图神经 网络的最新应用. https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20201055 ### **7、因果发现** [**西安交大最新《深度学习因果发现》综述论文,26页pdf涵盖211篇文献阐述三种深度因果范式**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247609011&idx=1&sn=8c907535eb5e2888b14a3ccdc395638f&chksm=fc87cba0cbf042b6ac95eeba114b5f82ae91566ac86f6b4e902e5c89d1052e0c1a7fe7ee4f95&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/5b1dbccff0b0de8cd4a2d65428f3d3af) 理解因果关系有助于构建干预措施,以实现特定目标,并实现干预措施下的预测。随着因果关系学习的重要性日益突出,因果发现任务已经从使用传统方法从观察数据中推断潜在的因果结构转向深度学习所涉及的模式识别领域。海量数据的快速积累促进了具有良好可扩展性的因果搜索方法的出现。**现有的因果发现方法综述主要集中在基于约束、评分和FCMs的传统方法上,缺乏对基于深度学习的方法的完善梳理,也缺乏对可变范式视角下的因果发现方法的思考和探索**。因此,我们根据变量范式将可能的因果发现任务划分为三种类型,并分别给出了三种任务的定义,定义并实例化了每一任务的相关数据集和最终构建的因果模型,然后回顾了现有的针对不同任务的主要因果发现方法。最后,针对目前因果发现领域的研究空白,从不同角度提出了一些路线图,并指出了未来的研究方向。 https://www.zhuanzhi.ai/paper/bfef07cc5c2b2c27cad1beb8002dbb4a ### 8、多模态Transformer [**牛津大学发布首篇《Transformer多模态学习》综述论文,23页pdf涵盖310篇文献全面阐述MMT的理论与应用**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247598117&idx=1&sn=7011eafe1a510c2f39b0e9920db18357&chksm=fc87a136cbf028206e551a74f84ee10ecb25cc84e7ee639c6dc7efb08c36423f5f2e318159a1&scene=21#wechat_redirect) ------ ![img](https://cdn.zhuanzhi.ai/vfiles/63e8a3a239bc714ba0874064a14a67f0) Transformer是一种很有前途的神经网络学习器,在各种机器学习任务中都取得了很大的成功。随着近年来多模态应用和大数据的普及,基于Transformer 的多模态学习已成为人工智能研究的热点。**本文介绍了面向多模态数据的Transformer 技术的全面综述**。本次综述的主要内容包括:(1)多模态学习、Transformer 生态系统和多模态大数据时代的背景,(2)从几何拓扑的角度对Vanilla Transformer、Vision Transformer和多模态Transformer 进行理论回顾,(3)通过两个重要的范式,即多模态预训练和具体的多模态任务,对多模态Transformer 的应用进行回顾。(4)多模态Transformer 模型和应用共享的共同挑战和设计的总结,以及(5)对社区的开放问题和潜在研究方向的讨论。 https://www.zhuanzhi.ai/paper/0da69832c8fd261e9badec8449f6fe80 ![img](https://cdn.zhuanzhi.ai/vfiles/603999535a08edb9a7eb79e858b3a21a) ### **9、目标检测** [小目标如何检测?西工大韩军伟等发布《大规模小目标检测》综述,20页pdf全面阐述小目标检测方法和自动驾驶与空中场景基准数据集](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247603442&idx=1&sn=55ac69bf1e2d29f2eb397443e81b3373&chksm=fc87b5e1cbf03cf798d5d397654400d918a68ca7d53ac8ed0610cd3c1cfb7dc0bc1a87b99a20&scene=21#wechat_redirect) ------ ![img](https://cdn.zhuanzhi.ai/vfiles/5960165de3f1b0dbd044cd9f8622106b) 随着深度卷积神经网络的兴起,目标检测在过去几年取得了显著的进展。然而,这样的繁荣并不能掩盖小目标检测(SOD)不理想的情况,这是计算机视觉中最具挑战性的任务之一,因为小目标的内在结构导致视觉外观差和噪声表示。**此外,大规模数据集对小目标检测方法的基准测试仍然是一个瓶颈**。**在本文中,我们首先对小目标检测进行了全面的综述**。然后,为了促进SOD的发展,我们构建了两个大型小目标检测数据集SODA (Small Object Detection dAtasets), SODA- d和SODA- a,分别针对Driving和Aerial场景。SODA-D包括24704个高质量流量图像和277596个9类实例。对于SODA-A,我们获取了2510张高分辨率航空图像,并在9个类上注释了800203个实例。正如我们所知,提出的数据集是首次尝试使用为多类别SOD定制的大量注释详尽的实例集合进行大规模基准测试。最后,我们评估了主流方法在SODA上的性能。我们期望发布的基准能够促进SOD的发展,并在该领域产生更多的突破。数据集和代码将很快在https://shaunyuan22.github.io/SODA上发布。 https://www.zhuanzhi.ai/paper/5e221f87497fb30800af3b26413080c0 ### **10、AI+军事** [**AI如何促进态势感知?2022美国空军AFRL等「态势感知」万字综述论文,24也pdf阐述智能战场态势感知技术、挑战和前景**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247589964&idx=1&sn=0ef6023af3f2f4d8ad0f437c14676f24&chksm=fc87815fcbf008492908dd4d799dd6a13cc34980e692bfe2a95321c9e74411d86f10b7bb811a&scene=21#wechat_redirect) **态势感知 (SA) 被定义为对环境中实体的感知、对其意义的理解以及对其近期状态的预测。**从空军的角度来看,SA 是指理解和预测空域内红蓝飞机和地面威胁的当前和未来部署的能力。**在本文中,我们提出了一个 SA 和动态决策模型,该模型结合了人工智能和动态数据驱动的应用系统,以根据不断变化的情况调整测量和资源。我们讨论了 SA 的测量以及与 SA 量化相关的挑战。**然后,我们阐述了大量有助于改进 SA 的技术,从不同的情报收集模式到人工智能,再到自动视觉系统。然后,我们介绍了 SA 的不同应用领域,包括战场、灰色地带战、军事和空军基地、国土安全和国防以及关键基础设施。最后,我们以对 SA 提出未来的见解。 ![img](https://cdn.zhuanzhi.ai/vfiles/19fa4564f0a9de48b1b32cf56d177747) [**量子技术+军事?这篇最新53页pdf《量子技术在军事中的应用》万字综述论文阐述未来量子战争形态 (附中文版)**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247590760&idx=1&sn=f29a0ae29fd1a9f1264eb7213a1cd736&chksm=fc87827bcbf00b6d659002ab6971a18cdf7283c0485d1645dec18ea1c7d6936887ae1110e272&scene=21#wechat_redirect) 量子技术是一门新兴且具有潜在破坏性的学科,能够影响许多人类活动。量子技术是两用技术,因此对国防和安全行业以及军事和政府行为者很感兴趣。**本报告回顾并描绘了可能的量子技术军事应用,作为国际和平与安全评估、伦理研究、军事和政府政策、战略和决策制定的切入点**。用于军事应用的量子技术引入了新的能力,提高了效率和精度,从而导致了“**量子战争**”,其中应该建立新的军事战略、学说、政策和伦理。**本文提供了正在开发的量子技术的基本概述,还估计预期的交付时间范围或利用率影响。描述了量子技术在各种战争领域(例如陆地、空中、太空、电子、网络和水下战争以及ISTAR——情报、监视、目标获取和侦察)的特定军事应用,并阐明了相关的问题和挑战。** ![img](https://cdn.zhuanzhi.ai/vfiles/8b0e3c4048a5d5eedc2542d0fd99e345) [**中科院空天院等最新《基于深度学习的多模态遥感数据融合》综述论文,全面阐述多模态融合技术**](http://mp.weixin.qq.com/s?__biz=MzU2OTA0NzE2NA==&mid=2247594621&idx=1&sn=19620be473b3c1e7e1812523f42e2688&chksm=fc87936ecbf01a78bd25cefcd6ca63cbf9605902802ffdb38635bf593728ab35957910b483e6&scene=21#wechat_redirect) ![img](https://cdn.zhuanzhi.ai/vfiles/d8fd5f340198bdebc56fefb3a5ba37fa) 随着遥感(RS)技术的飞速发展,大量具有复杂的异质的地观(EO)数据的出现,使得研究人员有机会以一种全新的方式处理当前的地球科学应用。近年来,随着地观数据的联合利用,多模态遥感数据融合的研究取得了巨大的进展,但由于缺乏对这些强异构数据的综合分析和解释能力,这些已开发的传统算法不可避免地遇到了性能瓶颈。因此,这一不可忽视的局限性进一步引发了对具有强大加工能力的替代工具的强烈需求。深度学习(Deep learning, DL)作为一项前沿技术,凭借其出色的数据表示和重构能力,在众多计算机视觉任务中取得了显著的突破。自然,该方法已成功应用于多模态遥感数据融合领域,与传统方法相比有了很大的改进。**本研究旨在对基于深度学习的多模态遥感数据融合进行系统的综述。更具体地说,首先给出了关于这个主题的一些基本知识**。随后,通过文献调研分析了该领域的发展趋势。从拟融合数据模态的角度,综述了多模态遥感数据融合中的一些流行子领域,即空间光谱、时空、光探测和测距光学。从融合数据模态的角度,综述了多模态遥感数据融合的几个子领域,即空间光谱、时空、光探测与测距-光学、合成孔径雷达-光学、RS-地理空间大数据融合。在此基础上,对多模态遥感数据融合技术的发展进行了有益的总结。最后,强调了剩余的挑战和潜在的未来方向。