图像识别中的深度学习有何与众不同

2017年03月15日 11:34苏州千视通视觉科技股份有限公司点击量：2164

　　深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。神经网络的起源可追溯到20世纪40年代，曾经在八九十年代流行。神经网络试图通过模拟大脑认知的机理解决各种机器学习问题。1986年，鲁梅尔哈特(Rumelhart)、欣顿(Hinton)和威廉姆斯(Williams)在《自然》杂志发表了的反向传播算法用于训练神经网络，该算法直到今天仍被广泛应用。

　　深度学习有何与众不同?

　　深度学习和其他机器学习方法相比有哪些关键的不同点，它为何能在许多领域取得成功?

　　特征

　　深度学习与传统模式识别方法的zui大不同在于它所采用的特征是从大数据中自动学习得到，而非采用手工设计。好的特征可以提高模式识别系统的性能。过去几十年，在模式识别的各种应用中，手工设计的特征一直处于统治地位。手工设计主要依靠设计者的先验知识，很难利用大数据的优势。由于依赖手工调参数，因此特征的设计中所允许出现的参数数量十分有限。深度学习可以从大数据中自动学习特征的表示，可以包含成千上万的参数。

　　采用手工设计出有效的特征往往需要五到十年时间，而深度学习可以针对新的应用从训练数据中很快学习到新的有效的特征表示。

　　一个模式识别系统包括特征和分类器两部分。在传统方法中，特征和分类器的优化是分开的。而在神经网络的框架下，特征表示和分类器是联合优化的，可以zui大程度地发挥二者联合协作的性能。

　　2012年欣顿参加ImageNet比赛所采用的卷积网络模型的特征表示包含了从上百万样本中学习得到的6000万个参数。从ImageNet上学习得到的特征表示具有非常强的泛化能力，可以成功应用到其他数据集和任务中，例如物体的检测、跟踪和检索等。在计算机视觉领域另外一个的竞赛是PSACAL VOC。但是它的训练集规模较小，不适合训练深度学习模型。有学者将ImageNet上学习得到的特征表示用于PSACAL VOC上的物体检测，检测率提高了20%。

　　既然特征学习如此重要，那么，什么是好的特征呢?一幅图像中，各种复杂的因素往往以非线性的方式结合在一起。例如人脸图像中就包含了身份、姿态、年龄、表情、光线等各种信息。深度学习的关键就是通过多层非线性映射将这些因素成功分开，例如在深度模型的zui后一个隐含层，不同神经元代表了不同因素。如果将这个隐含层当作特征表示，人脸识别、姿态估计、表情识别、年龄估计就会变得非常简单，因为各个因素之间变成了简单的线性关系，不再彼此干扰。

　　深层结构的优势

　　深度学习模型的“深”字意味着神经网络的结构深，由很多层组成。而支持向量机和Boosting等其他常用的机器学习模型都是浅层结构。三层神经网络模型(包括输入层、输出层和一个隐含层)可以近似任何分类函数。既然如此，为什么需要深层模型呢?

　　研究表明，针对特定的任务，如果模型的深度不够，其所需要的计算单元会呈指数增加。这意味着虽然浅层模型可以表达相同的分类函数，但其需要的参数和训练样本要多得多。浅层模型提供的是局部表达。它将高维图像空间分成若干个局部区域，每个局部区域至少存储一个从训练数据中获得的模板。浅层模型将一个测试样本和这些模板逐一匹配，根据匹配的结果预测其类别。例如，在支持向量机模型中，模板是支持向量;在zui近邻分类器中，模板是所有的训练样本。随着分类问题复杂度的增加，需要将图像空间划分成越来越多的局部区域，因而需要越来越多的参数和训练样本。尽管目前许多深度模型的参数量已经相当巨大，但如果换成浅层神经网络，其所需要的参数量要大出多个数量级才能达到相同的数据拟合效果，以至于很难实现。

　　深度模型之所以能减少参数的关键在于重复利用中间层的计算单元。以人脸识别为例，深度学习可以针对人脸图像的分层特征表达进行：zui底层从原始像素开始学习滤波器，刻画局部的边缘和纹理特征;中层滤波器通过将各种边缘滤波器进行组合，描述不同类型的人脸器官;zui高层描述的是整个人脸的全局特征。

　　深度学习提供的是分布式的特征表示。在zui高的隐含层，每个神经元代表一个属性分类器，例如性别、人种和头发颜色等。每个神经元将图像空间一分为二，N个神经元的组合就可以表达2N个局部区域，而用浅层模型表达这些区域的划分至少需要2N个模板。由此可以看出，深度模型的表达能力更强，效率更高。

　　提取全局特征和上下文信息的能力

　　深度模型具有强大的学习能力和的特征表达能力，更重要的优点是从像素级原始数据到抽象的语义概念逐层提取信息，这使得它在提取图像的全局特征和上下文信息方面具有突出的优势，为解决传统的计算机视觉问题(如图像分割和关键点检测)带来了新的思路。

　　以人脸的图像分割为例，为了预测每个像素属于哪个脸部器官(眼睛、鼻子、嘴)，通常的做法是在该像素周围取一个小区域，提取纹理特征(例如局部二值模式)，再基于该特征利用支持向量机等浅层模型分类。因为局部区域包含的信息量有限，往往产生分类错误，因此要对分割后的图像加入平滑和形状先验等约束。

　　人眼即使在存在局部遮挡的情况下也可以根据脸部其他区域的信息估计被遮挡部分的标注。由此可知全局和上下文信息对于局部的判断是非常重要的，而这些信息在基于局部特征的方法中在zui开始阶段就丢失了。理想情况下，模型应该将整幅图像作为输入，直接预测整幅分割图。图像分割可以被看做一个高维数据转换的问题来解决。这样不但利用到了上下文信息，模型在高维数据转换过程中也隐式地加入了形状先验。但是由于整幅图像内容过于复杂，浅层模型很难有效地捕捉全局特征。而深度学习的出现使这一思路成为可能，在人脸分割、人体分割、人脸图像配准和人体姿态估计等各个方面都取得了成功。

　　联合深度学习

　　一些研究计算机视觉的学者将深度学习模型视为黑盒子，这种看法是不全面的。传统计算机视觉系统和深度学习模型存在着密切的，利用这种可以提出新的深度模型和训练方法。用于行人检测的联合深度学习就是一个成功的例子。一个计算机视觉系统包含若干个关键的组成模块。例如，一个行人检测器包括特征提取、部件检测器、部件几何形变建模、部件遮挡推理、分类器等模块。在联合深度学习中，深度模型的各个层和视觉系统的各个模块可以建立对应关系。如果视觉系统中的关键模块在现有深度学习的模型中没有与之对应的层，则它们可以启发我们提出新的深度模型。例如，大量物体检测的研究工作表明，对物体部件的几何形变建模可以有效提高检测率，但是在常用的深度模型中没有与之相对应的层，因此联合深度学习及其后续的工作都提出了新的形变层和形变池化层来实现这一功能。

　　从训练方式上看，计算机视觉系统的各个模块是逐一训练或手工设计的。在深度模型的预训练阶段，各个层也是逐一训练的。如果我们能够建立计算机视觉系统和深度模型之间的对应关系，那么在视觉研究中积累的经验就可以对深度模型的预训练提供指导。这样预训练后得到的模型就可以达到与传统计算机视觉系统可比的结果。在此基础上，深度学习还会利用反向传播对所有层进行联合优化，使它们之间的相互协作达到*，从而使整个网络的性能得到重大提升。

上一篇：灭火毯为什么又叫逃生毯?

下一篇：俄罗斯NR-900EK非线性节点探测器

版权与免责声明： 凡本网注明“来源：智慧城市网”的所有作品，均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：智慧城市网www.afzhan.com”。违反上述声明者，本网将追究其相关法律责任。

本网转载并注明自其它来源（非智慧城市网www.afzhan.com）的作品，目的在于传递更多信息，并不代表本网赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品第一来源，并自负版权等法律责任。