旷视研究院院长孙剑讲述：中国技术何以打败Facebook、Google拿下世界第一

2017年11月20日 10:59:22 来源：极客网

　　我们看一下神经网络为什么叫深度学习，其实说神经网络的层数非常多，它够深，这是2012年Hinton和学生做的 AlexNet，一个八层的网络，当时认为已经非常深了。论文里还有一段，专门说八层比五层深是有道理的，证明深度是有道理的。论文发布以后还有很多人挑战说其实更浅的也能做出来，现在已经没有人挑战了。过两年之后，牛津大学和谷歌分别开发出了它们的网络，20层的网络，性能提高非常多。这两个网络大概都是20层，这并不是巧合，到了20层以后系统就很难训练起来。我们自己做了一些工作，确实发现是这样的问题，当非线性系统非常复杂的时候，确实很难训练它。

　　在2015年的时候，当时我还在微软亚洲研究院，我们做了一个工作叫做 ResNet，第一次做了一个152层的网络，它有效地解决了神经网络训练中的优化问题。我先放一个以前同事做的动画，给大家看一下152层网络到底有多深。其中一个小横杆是一层。

　　这网络到底为什么能做成呢?其实核心是引用了一个残差学习的概念，这概念就是说当网络非常深的时候，你要做一个变换，相邻两层的变化差别是不大，那只去学习残差会比直接学习映射会更容易，所以我们就设计了残差学习的思想，实际上可以用一个非常简单的跨层连接来实现，从而达到非常容易优化的复杂的非线性动态系统。为什么网络可以很好的训练起来，我们自己相信的一个解释是整个训练过程是一个从浅到深的训练动态。还有一个数学上比较严谨的解释是它能够很好的消除以前深度学习网络反传算法中梯度消失的问题，这是个非常严重的问题，当你层数非常深的时候，梯度会越来越小，以至于计算机的精度会表示不了，就无法训练整个系统了，这个就在数学上保证了梯度不会变小。残差网络也代表微软赢得了 ImageNet 2015年的冠军，第一次超过了人类在图像识别上的表现。

　　深度学习：破除魔咒之旅

　　ResNet 网络说明了什么?它说明了我们走到今天这一步非常不容易的，Geoffrey Hinton总结了一下为什么深度学习做得越来越好，比如说计算量越来越强、数据越来越大，细节做的更对了。其实我想说的是残差学习隐含了网络结构需要对优化友好才可以做好。

　　我也分享一下，在前不久 AlphaGo Zero系统里面第一次用不学习人类棋谱的方式来战胜了人类，其中有两个核心技术，一个是自我博弈的增强学习，另外一个它也用到了我们的ResNet，用了一个40层或者80层的网络来完成对棋谱到底哪里下子、到底对当前棋局是赢还是输的一个判断。

　　深度神经网络设计的演化非常快，我们给大家罗列了从2012年到2016年的一些代表性工作年。进展非常快以至于我们做的很多视觉计算任务取得了非常大的进展，例如Coco是目前物体检测最重要的一个基准测试。

　　今年我们赢得了冠军。 2015年到2017年仅仅两年，Coco物体检测的精度从37变到了52。 37这个数字是当时我们在微软研究院做的一个工作，是当时COCO的第一名。再往前2014年微软创建COCO的时候，当时的结果只有20多，如果用非深度学习方法可能不到20。我们今年也获得了COCO Keypoint 竞赛的冠军，这个问题就是说如何把每一个人的身体骨架都很精确的用3D姿态恢复出来，这样很容易分析这个人的动作。