旷视研究院院长孙剑讲述：中国技术何以打败Facebook、Google拿下世界第一

2017年11月20日 10:59:22 来源：极客网

　　CV (计算机视觉)在 AI 中大概的位置我用这一张图来表现，其实我标不同的方块的颜色代表这个领域商业化的成熟度，这里语音和视觉是更接近商业化落地的，NLP和通用人工智能还有很长的路要走。

　　CV今天非常火热是因为它有非常多的应用，从互联网、安防、无人车、机器人到AR、VR等等，也允许大公司和创业公司在整个市场上并存。

　　做CV的话需要什么呢?既需要理论也需要创新，这里分享一下：上周日旷视科技成立了学术委员会，非常有幸请到了图灵奖唯一一位华人得主姚期智先生担任学术委员会首席顾问，帮我们在理论方面把关。

　　今天我会分享一下算法上面的工作。

　　计算方式的变革(或复兴)：神经网络计算突破冯·诺依曼结构的体系瓶颈

　　在讲计算机视觉之前，我想先讲一下对算法尤其是计算的理解。我们今天用的计算机还是冯·诺依曼结构的计算机，它的计算机体系结构设计的思想是要把数据和程序同时放在内存里，好处是程序遇到不同的数据时可以改变程序，可以自适应地处理数据，这非常了不起，因为在这之前，如果不这样的话，每一次不管是插线还是打孔，都很难去重新编程。后来图灵也问了个问题：既然机器可以根据自动处理数据，那是不是机器就可以拥有智能。

　　但是今天我们用了很长时间的冯·诺依曼结构，很大一个局限是它有一个瓶颈：学术界叫做冯·诺依曼瓶颈，其实是说CPU和内存之间的带宽是不够的。虽然 CPU 可以加速，但是数据越来越大，就会堵在中间。怎么去突破这一个瓶颈，目前的传统计算机结构是不能突破这一瓶颈的。

　　而我们大脑其实不是这样的结构，大脑里面所有的计算和表示都是在一个并行的网络里面运行的。

　　这跟我们今天做的神经网络也非常类似，这是神经网络的一个神经元或者多个神经元在做的一些处理，右边是人脑神经元的一些类别，基本上一个神经元会接受相连接的几百个、上千个神经元来的输入，然后做一个决策：神经元到底是激活还是不激活。

　　所以如果我们看今天神经网络的计算是在做什么呢?其实是在通过一个函数把一个高维激活向量变成另外一个高维激活向量。我们目前的神经网络就是不停做这样的变换，做一次、两次，做很多次，以至于形成一个非常复杂的嵌套变换，这就是我们今天的神经网络。

　　我们可以把它拆成三个因素，一个是表示这样的激活向量，还有里面的标量非线性，还有权重矩阵，这是里面的三要素。激活向量其实是知识的表示，非线性是来表示这个神经元是激活还是不激活，这权重矩阵是通过监督学习到的知识。

　　这一个方式有很多好的特性，比如说它是高度并行，内存带宽可以非常大，还有一个优点就是计算非常简单，基本上就是矩阵乘，没有有分枝判断，没有冯·诺依曼结构下的复杂计算，所以这一种计算在一定意义上可以突破冯·诺依曼结构的体系瓶颈，比如说右侧是今天神经网络的主要模式，左边是以前的模式，可以看到计算可以提高带宽10倍甚至上百倍。

　　这样的计算，现在还有NVIDIA、AMD的GPU这样的并行处理单元来加速，大家可以看到这个数字，120个TFLOP/S，这是今天 NVIDIA最好的显卡能做到的计算力。大家可以比较一下去年GPU的显卡还是Pascal 系列，是10个TFLOP/S，今年不管是 NVIDIA还是谷歌第二代的TPU，计算量提高了10倍、甚至20倍，这远远打破了摩尔定律，这是在训练端或者服务器端。

　　文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

[No. ]
分享到微信

2/6

首页

尾页