在中国也有华为的Mate10的手机,第一款搭载了寒武纪的1A 神经网络加速器的手机,可以在客户端也能够方便运用这样的计算能力。所以我们自己做研究就会问一个问题,怎么样去利用这样的计算力?
我们在Face++很早就意识到计算带来非常大的变革。我们做了一个旷视科技的Brain,就是为了神经计算,这里面最重要的东西是深度学习平台,底层是NVIDIA 的引擎,右边是我们GPU集群,最核心的深度学习平台我们内部叫做Brain++,是整个系统管理存储、标注、深度学习训练、GPU虚拟化管理甚至模型的发布,整个一套软件系统来管理我们所有数千块的GPU。
旷视科技的Brain++ 内部有一个最重要的东西叫 MegBrain, 它对应的就是一些开源的或者大公司推出的深度学习引擎,比如TensorFlow和Caffe。MegBrain是我们自研的一个引擎,早在TensorFlow之前。据我所知,这是所有创业公司中唯一一家自研深度学习引擎并且全员使用的,我们内部已经到了7.0的版本。这两个条件非常重要,既要自研又要全员使用,给我们带来非常多的好处,所以我们要坚持使用自己的深度学习引擎。
4.6 亿美元怎么花?
大家可能前两天看了一些新闻关于Face++拿到了一些融资,那融资拿来怎么用呢?我们主要有两个大的方向,一方面是继续打造类似于Brain++的引擎需要更多的计算力,另外一个方面会在城市大脑上做一些商业的开拓。
为什么花这么多的资源来做这件事情呢?因为我们相信今天的算法是目前设计的,但是如果问一个问题,如果今天计算量就提高一万倍,那你应该如何重新设计自己的算法。一万倍听上去很多,其实也不是很难达到。比方说去年到今年就从10 TFLOP/S 通过NVIDIA和Google的努力到120-180 TFLOP/S,其实达到了18倍的增速。从计算力来说,如果有500多块卡,我们就达到了一万倍的加速。这是我在Face++研究院非常严肃地在研究的一个问题。有了这样的计算变化,那视觉计算产生了什么样大的变化?
我可以回顾一下,计算机视觉到底要解决什么问题。刚才贾佳亚教授也非常详细地解释了视觉计算要处理的一些核心问题。基本上是要描述一张图片里面都有什么东西,描述这张图片里正在发生什么和将要发生什么。
我们自己将它定义成四个核心问题,分别是分类、检测、分割,序列分析,分别对应图象、区域、像素和视频的处理,这是Face++研究院核心要做的事。
以前做这一些问题,大家是通过手工设计特征的方式加上一个标准的SVM的分类器,这其实也是在做非线性变换,但是问题是这样的非线性变换做不了很多次,很多研究尝试做三次、五次、十次,发现超过三次就不太有效了。另外就是手工设计特征,人工很难去设计很好的特征。
今天深度神经网络可以做一个非常多次的非线性变换,可以逼近非常复杂的映射。更重要的是,里面的所有参数都是自动学到的,这是深度学习网络目前的现状和基本方式。
这个过程来之不易,里面经过了很多代人的研究。有很多认知边界的突破,比如说很多人之前不相信深度神经网络是好的,是有用的,认为它根本不可能被训练起来,这个魔咒其实是通过这几年的发展才慢慢破除的。
文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。
奥维云网(AVC)推总数据显示,2024年1-9月明火炊具线上零售额94.2亿元,同比增加3.1%,其中抖音渠道表现优异,同比有14%的涨幅,传统电商略有下滑,同比降低2.3%。
“以前都要去窗口办,一套流程下来都要半个月了,现在方便多了!”打开“重庆公积金”微信小程序,按照提示流程提交相关材料,仅几秒钟,重庆市民曾某的账户就打进了21600元。
华硕ProArt创艺27 Pro PA279CRV显示器,凭借其优秀的性能配置和精准的色彩呈现能力,为您的创作工作带来实质性的帮助,双十一期间低至2799元,性价比很高,简直是创作者们的首选。