数据中心 频道

深度学习那点儿事

  【IT168 资讯】深度学习在过去的十年中在各个领域都发光发热,用几个简单的例子来说,Facebook能自动在您的照片中找到您朋友并标记;谷歌Deepmind的人工智能AlphaGo击败了围棋冠军柯洁;Skype能够实时翻译对话,且翻译十分准确。所有这一切的背后都是一种称为深度学习的人工智能。但是什么是深度学习,它又是如何工作的呢?

  深度学习是机器学习的一个子集 ,这是一个研究计算机算法的领域,它可以自己检查学习和改进。

深度学习那点儿事

  机器学习绝不是最近才有的现象,它的根源在20世纪中叶。 20世纪50年代,英国数学家艾伦·图灵(Alan Turing)提出了人工智能的“机器学习”。而在接下来的几十年里,各种机器学习技术也越来越受到青睐。

  其中之一便是神经网络,这种算法支持深度学习,并在图像识别和机器人视觉中扮演核心角色。它是由构成人脑的神经细胞(神经元)所激发的,神经网络组成了层(神经元),他们彼此相连接。层数越多,网络越“深”。

  大脑中的单个神经元从其他神经元接收信号,多达10万个。当这些其他神经元起火时,它们对连接的神经元施加兴奋性或抑制作用。如果我们的第一个神经元的输入加起来达到一定的阈值电压,它也会起火。

  而在人工神经网络中,信号也在“神经元”之间传播。但是,神经网络不是发射电信号,而是为各种神经元分配权重。一个比另一个权重更大的神经元会对下一层神经元产生更多的作用。最后一层将这些加权输入放在一起,以得出答案。

深度学习那点儿事

  假设我们想用一个神经网络识别至少包含一只猫的照片。但实际上猫并不都是看起来完全一样的,比如一个毛茸茸的老缅因猫和一只白色的暹罗猫,长相就是完全不同的,照片也不可能在相同的光线中以相同的角度和相同的尺寸显示出来。这时候,我们就需要编译一组训练图像,有数千个猫脸作为例子,我们(人类)标注“猫”,以及那些不是以猫为对象的图片,然后标记其(你猜到它)“不是猫”。这些图像就被输送到神经网络中去了。

  如果这是一部运动题材的电影,训练蒙太奇看起来就会像这样:图像被转换成通过网络移动的数据,各种神经元将重量分配给不同的元素。例如,稍微弯曲的对角线可能就比完美的90度角更加重。

  最后,最终的输出层将所有的信息:尖耳朵、胡须、黑鼻子放在一起,然后给出一个答案:猫。

深度学习那点儿事

  神经网络将这个答案与真正的人类生成的标签进行了比较。如果它们是匹配的那就太棒了,如果没有,且图像是corgi,那么,神经网络记录错误就需要返回并调整其神经元的权重。然后,神经网络会采用另一个图像并重复该过程,数千次,调整其权重并提高其猫识别技能。这种训练技术被称为监督学习。

  另一方面,无监督学习使用未标记的数据。神经网络必须识别数据中的模式来自学照片的哪些部分可能是相关的。

  自学机器听起来不错,但直到最近发现,机器学习研究人员忽略了神经网络。神经网络受到一些似乎无法逾越的问题的困扰。一个是他们容易出现“本地最小化”。这就意味着他们最终会以不正确的方式出现在极少出现的最小错误中。

  其他机器学习技术也崛起了,特别是在计算机视觉和面部识别领域。 2001年,美国三菱电机研究实验室的保罗·维奥拉(Paul Viola)和迈克尔·琼斯(Michael Jones)使用称为自适应增强技术(AdaBoost)的机器学习算法来实时检测图像中的人脸。

  AdaBoost不是相互联系的神经元,而是通过一组简单的决策过滤图像。图像有一个明亮的斑点在暗斑之间,这可能意味着是鼻梁。

  随着数据在决策树上逐渐下降,从图像中正确选择面部的可能性也在增加。澳大利亚机器人视觉中心副主任(ACRV)和计算机视觉科学家伊恩·里德(Ian Reid)说:“这是一个非常简单的想法,但它非常优雅,而且功能非常强大。它似乎是神经网络棺材中的最后一个钉子。”

深度学习那点儿事

  加拿大多伦多大学的一个小组,由20世纪80年代神经网络先驱Geoff Hinton领导,提出了一种训练神经网络的方法,这就意味着它不属于本地最小陷阱。

  强大的图形处理单元即GPU突破了现场,意味着研究人员可以在台式机上运行、操纵和处理图像,而不一定非得是超级计算机。

  但是,Reid表示,神经网络最大的进步,是大量标签数据的出现。 2007年,一对计算机科学家 - 斯坦福大学的李菲菲和普林斯顿大学的李开复共同启动了ImageNet,这是一个来自数百万互联网的标签图像的数据库。这样漫长而艰巨的标签任务受到诸如AMT等技术的挤出,为每个用户标注的图像支付了几分钱。

  现在,ImageNet提供了大约1000万张图像和1000个不同标签的神经网络。来自中心的另一位计算机科学家古斯塔夫·卡内罗(Gustavo Carneiro)说:“从10年前到现在,这是一个巨大的飞跃。而在过去五年中,神经网络已经成为机器人视觉的核心工具。”

  里德说表示,“虽然现代神经网络包含许多层次,谷歌照片就有大约30层,但是,卷积神经网络的出现就表示已经迈出了一大步。”

  与传统神经网络一样,卷积对应物由加权神经元层组成。但他们不仅仅是模仿大脑的运作,他们还适当地从视觉系统本身汲取灵感。

  卷积神经网络中的每个层都在图像上应用过滤器来拾取特定的图案或特征。前几层检测到较大的特征,例如对角线,而后来的层可以获得更细的细节,并将其组织成诸如耳朵的复杂特征。

  典型的卷积神经网络架构

深度学习那点儿事

  最终输出层像普通神经网络一样完全连接(即,该层中的所有神经元都连接到上一层的所有神经元)。它集合了高度具体的特征,这其中可能包括狭缝形瞳孔,杏仁形的眼睛,眼睛到鼻子的距离,以产生超精确的分类:猫。

  在2012年,谷歌培训了一个复杂的神经网络与数千个未标记的YouTube剪辑缩略图,我们看看会出现什么,毫不奇怪,它变得擅长寻找猫视频。

  那么在神经网络的隐藏层中发生了什么呢?该中心主任Peter Corke教授说,这在很大程度上将仍是一个谜。但随着网络越来越深入,研究人员解开了他们所建模的人类大脑的秘密,未来他们将变得越来越细微和复杂。

  “当我们更多地了解人脑中编码的算法,以及进化使我们能够帮助我们了解图像的技巧时,”Corke说,“我们将逆向工程化大脑并窃取它们。

0
相关文章