互联网+ 电子商务 智能家居 地理信息 智能制造 信息安全 3D打印 工业4.0 人工智能 光伏 新能源汽车 消费品 集成电路 移动支付 汽车 数据中心
2019世界半导体大会暨第十七届中国半导体市场年会
当前位置:首页 > 产业动态 > 信息化 > 电子信息 > 正文

商汤集团副总裁柳钢:视觉人工智能创新应用的新趋势

发布时间: 2019-01-07 10:46     来源: 满天星

  2019年1月7日,新兴产业百人会年会——张江•2019未来产业峰会在上海市浦东新区博雅酒店隆重举行。峰会以“变革创新 拥抱未来”为主题。商汤集团副总裁柳钢为大会发表了主题演讲。
  以下为演讲实录:
商汤集团副总裁 柳钢
  尊敬的各位领导,各位专家,来自产业界的各位朋友,大家早上好!很荣幸能够代表商汤科技在新兴产业百人会做这样的分享。
  早上听到了各位领导和专家关于创新变革、拥抱未来的一些分享,感受还是很多的。我注意到一个现象,就是好像上午我是唯一一位来自于产业的分享嘉宾,所以我觉得可能有必要在介绍之前来介绍一下我所在的行业和我所在的企业。
  我来自于商汤科技,商汤科技是一家中国的人工智能企业,在过去4年的发展里面,随着这样一个科技的浪潮也取得了很大的进步,目前公司有差不多2千人,值得一提的是在2千人里面,在我们公司有150位全职的博士,所以人工智能科技产业一定是一个人才密集的产业。
  虽然“人工智能”这4个字对于很多人来说是一个很新的话题,但对于人工智能一家企业和一个从业者来说,这其实是一个很古老的话题,从1956年提出这样的一个学术概念,到今天差不多已经过去60多年的时间。
  所以今天我分享的在人工智能这样一个启蒙、概念普及的基础之上,我们来看一看作为视觉的人工智能应用,在过去几年里面到底有哪些创新的应用,在应用的过程当中出现了哪些新的趋势。
  其实刚才张院士做的分享,已经大致把人工智能的脉络进行了梳理,在我们看来,人工智能其实整个科技浪潮里,从2012年开始,特别是深度学习这样的一个方式普及了之后,有了新一波的浪潮。
  到了2012年之后,我们看到的是说整个移动互联网之后,那物联网作为一个新的科技浪潮正在兴起,不管是机器人领域,还是语音识别、图象识别、认知与推理,更多讲的是万物与智能相联的时代。
  从中国来讲,从2017年国务院印发的《新一代人工智能发展规划》,整个把我们中国对于人工智能的重视和发展推到了一个新的高度,我们来看一看,人工智能的研究从过去的三起三落,2012年深度学习这样的一个实现手段,在图像人工智能里面首先取得了多大的突破到现在,到底有哪些新的趋势?
  人工智能它长久以来,长期停留在学术探讨的阶段,比如说从1956年到现在,我们经常讲,有两落三起,现在可能是第三起浪潮的到来。大家有没有想过说,这样一个甚至比互联网更加古老的行业,为什么直到最近几年才引起产业界的重视呢?
  它的学术领域形成是在60多年以前,在过去的60年里面,在整个智能研究里面,从产业到政府、资本界、企业界也投入了巨大的资金,但是为什么直到这几年才成为了一个热点呢?商汤科技从创业到现在,整个很直观的感受,总结起来一定是说,过去很长一段时间的总体特点是什么?就是很有趣。
  我们看到了很多用机器的方式,计算机的方式,它能够模拟甚至是部分去实现人所具备的智能功能,长期停留在有趣的一个阶段里面,但是很遗憾的是,正是因为它长期停留在有趣的阶段,在产业的价值创造阶段没有更新的突破,导致了它每一次的兴衰,兴起然后浪潮下去。
  从2012年深度学习的广泛应用,06年到12年的广泛应用之后,这个里面就从有趣变成了有用。有用的一个重大前提或者是根本性的标志是什么?就是智能的应用所产生的功能一定在一个特定的领域,比人要做的好。
  它之所以能够做的好,一个背后的原因是什么呢?在我们看来是人工智能的研究发生了根本的改变。其实现在的人工智能研究已经从过去的这种作坊式、实验室式、学术团体式的研究,迈进了一个工业化的研究。现在的人工智能之所以能够从以前的有趣、模拟、接近来表现,到完全赶上的表现,大大超越的表现,甚至去完成光靠人类完全不可能完成任务的主要原因,就是因为人工智能的研究方法根本性的变革。
  所谓的工业化的研究到底是怎么样的意思?它有哪些含义?第一个,我们知道讲到人工智能就会讲到训练和学习。从字面上来理解大家都可以想到训练和学习的意思一定是说,这个算法的出台一定要像人一样,它要去学很多东西,然后才可以产出我们想要的算法。
  但是到现在通过早上的很多分享可以看到,不管是从数据量、计算能力、集群的规模来讲,它的规模之大也完全超出各位的想象,我给大家举一个例子,商汤科技从我们自己搭建的训练平台来看,我们有超过1万2千块GPU的卡,平均来讲一块卡的价格会在4万块钱,1万2千块GPU的卡是数以亿级的投资了。所以说它有这么大一个工业化的运作,才有可能会突破那个极限。
  从数据来看,长期以来人工智能突破的痛点是说,在互联网时代之前,是很难获得符合要求的大量数据的。我给大家举一个例子,在2012年商汤科技创立的初期,我们为了参加一个国际的比赛,参加比赛的话一定要为这个比赛去训练一个算法,这个训练级是20万张照片的训练级,当时公司刚刚创立,也还没有搭建这么强大的一个训练平台。
  我们租用的是一个国家的CPU架构超算中心做的训练,20万张的图片用传统CPU架构的训练中心做了一个迭代,花了整整三个礼拜,三个礼拜的时间,20万张的训练级,出一个算法就要进行迭代。
  现在时隔4年之后,我们现在很多训练级的图片数是当时的10倍以上,甚至我们在做智慧城市级规模的训练,我们用的训练级是数以千万计的。这样的一个海量、大规模数据的具备,其实是互联网特别是移动互联网之后,这个时代留给人工智能时代发展的红利,如果没有过去互联网和移动互联网的发展,其实是不可能具备这么多数据的。
  但是另一方面,数以千万计图片的训练,一定是一个工业级的研究方式,已经超出了一个小团体,几个人这样的方式去出一个研究的成果。再加上工业界的训练平台,才有可能面对人们应用的人工智能出台成为可能。
  我们都知道人工智能是一个不断迭代的过程,就好比是说现在在场的有大概1千人,我们发明了一个算法,现场发明一个算法,我们看看用计算机的方式来认当场的1千个人会认对多少个、认错多少个,一个普通人脸识别的算法,能够在1千个人里面认对900个人,通俗来讲就是90%的准确率。
  我们做一次迭代,1千个人里面可以认对950个人,95%。1千个人里面可以认对999个人,准确率是99%,但在真实场景里面99不是远远不够的,我们现在要使人工智能特别是视觉人工智能发挥价值,最先想到的是智慧城市。上海有2千多万人口,我是住在深圳的,深圳有1千3百多万的人口,我们想要打造一个城市级的社区,我们要处理的数量是前万级别的规模所以99%的准确率是远远不够的。
  现在业务场景的强大已经要求是说,我们出台的每一个算法,每一套人工智能的系统,它的规模已经不再是这种小作坊式的产出了。我们再来看,算法与硬件的联合优化,之所以现在的人工智能我们得以用大规模、工业化的方式进行的重要原因,我们可以用很多的资金去拿到我们想要的数据,但是大家有没有去想一想,我们用1千张图片做一次训练,那就意味着数据的传输,GPU这样做的一个便携计算的方式,在GPU里的数据速度会很快,那这些数据是需要在存储和运算空间里面进行一个输入和输出的交换。
  大家想一想,数以千万计的图片进行一个分组,在传统的架构下需要多时间呢?所以近几年新的趋势是说,我们在本身的训练平台里面已经是一个集群化的架构了,我举例,拿我们自己来说,1万2千块GPU的卡里面,我们最大的集群是1千块GPU卡,进行一个便携的集群计算。
  也就是说,硬件的架构和人工智能的训练已经算到完全融合在一起,这样才有可能有这样大的算力去处理海量的数据。同样的测试评估的工具也是工业级的,大家可以想像的是说,其实我们很多的算法是为现在的很多设备来服务的,一讲到智能设备的,大家的反应就是说每个人多会带着智能设备,就是手机。
  我们在跟中国4个最大的手机厂商合作里面,我们的算法在植入它的新一代手机里面,一个最重要的环节就是测评、测试。比如说现在的人脸解锁,基于人脸属性的语言,基于商汤自己的现实增强技术的人机互动效果,大家可以想象一下,任何一个算法一旦要跟手机厂商去合作的话,每年的出货量都是数以千万计甚至是数以亿计的。
  这样的一个算法应用,除了算法的准确率和效果之外,其实更重要的指标就是稳定性,因为你的算法一旦被智能设备结合,每年数以亿计的设备要高性能地跑起来,这样的一个测试也是完全海量工业级的测试,才有可能使它的成果有效果可以保证。
  同样我们最后讲不管是整个训练平台质量的提高,还是整个数量已经完全超出人类的想象规模,还是应用场景工业级的升级,它都会要求整个研究的过程是要有一个自动化或者是半自动化的工具链,来帮助我们的研究团队进行这样的一个测试。
  从某种意义上来讲,就好比如说,在过去如果我们把人工智能比成是水,比成是电的话,过去我们获得追的方式是什么呢?是自己在自己家的院子里打一口井,我们也可以获得水的资源,但现在一定是要建立一个自来水的系统,这个自来水的系统一定是工业级的系统,所以通过过去4年多,从实验室走出来进行一个公司化的运作、产业化的尝试,我们最新的一个体会,在2019年初的时候我们看到的是什么?是人工智能的研究已经远远超出了现在我们业界所理解的启蒙阶段和观念探讨的阶段,它不但是超出了这个阶段,而且已经提出了一个新的要求,未来的人工智能研究一定是工业级的推进方式。
  那我们看一看,既然我们觉得是说整个人工智能特别是世界人工智能,应用研究的一个新的趋势是平台化的话,那我们来看一看,到底有哪些平台在那个产品中有所兴起。
  第一个是超算平台,在三四年前,我们20万张的迭代要差不多1个月的时间,现在同样的数量的训练级,用自己的超算平台来做的话是6个小时,现在用6个小时完成3年半以前3个礼拜所需要的时间的工作量。
  不仅仅是说整个速度的提高,现在对于AI超算平台这样的一个应用有更高的要求,比如说要求易购、要支持不同架构的训练以及实战。所以说AI超算平台是我们看到的视觉智能平台化的一个重要特征。
  我们再来看一看传感器平台。人工智能视觉的突破首先是从图片的识别来突破的,也就是说我们熟知的刷脸,我相信这也是视觉人工智能整个被业界得以重视和成为热点的主要原因,就是我们到了一个刷脸的时代。
  但其实从这样一个识别的时代进入到更深的整个视觉的研究我们会发现,传统的传感器不是为人工智能,不是为深度约束的实现方式来设计的,现在如果我们说整个世界的人工智能要做更广泛的应用,我们看到一个趋势是什么?是在传感器的成像逻辑,它所用的信号编辑码,它的方式也要进行面向人工智能和深度学习理解这样一个平台化的改良和设计。
  再看一看增强现实的AR平台,可能大家有一些感觉是说,在我们的手机里面你会看到很多的场景是实际的场景和虚拟的场景一个互动,这个是增强现实,也就是说它可以把一个虚拟的效果放到一个现实的场景之上,比如说现在应用很广泛的游戏,比如说实时拍摄,在这个过程当中加剧了一定的效果,比如说导航。
  我们也跟一些手机厂商进行了合作,我们看到视觉人工智能的应用趋势是什么?它的虚拟现实的效果,会要求在极其广泛、无处不在的、计算能力相对来说比较弱的智能设备里面,要很通常地跑起来。增强现实的效果如果加上更多的前提条件,比如说我们带计算集群里面去跑,或者是强大的PC里去跑,这个对于强大的性能来讲并不是一个很大的挑战,或者说不是一个最好的方式。
  难就难在我们要在成本不太高的板子上,把良好的效果跑起来,而且也要具备良好的开放性,给开发者提供一个比较好的体验,这是我们看到的到了今天整个世界智能要在广泛应用,出现的一个新的平台化的趋势。
  我们再来看一看身份认证的平台,其实如果这个里面一个更大的挑战就是亮点带来的挑战,如果我们只需要对在场的将近1千人进行这样的身份认证,各位相信可能在整个算法的研究迭代上是不具挑战的,但如果我们谈是14亿人或者是全球70亿人,我们想对整个星球上70亿人进行一个身份认证平台的打造,这个难度可想而知。
  但现在我们产业的探索是说,我们已经看到了很多完全可以落地的场景。比如说我们再也不用必须去银行的柜台,可以进行很多跟身份认证完全相关的技能业务的办理,再比如说我们在一个先进的城市里面,在酒店入住的时候,不用出示身份证可以进行酒店除住的办理。我们在很多先行先试的机,完全可以用非人工干预的方式进行安检完成,这些都是有商汤科技的技术在后面提供的。
  所以我们看到,如果视觉人工智能技术要做数据广泛的应用,它要处理的是在未来数以亿计,甚至是数以十亿计的人,如何做到在不影响安全性和准确性的情况下,用人的公开数据特征进行匹配。
  我们再来看一看智慧城市平台,如果我们选举特定的场景的话,同样它的差别也不是很大,比如说刷脸方面,我们每天去公司是刷脸开门的,考试打卡也是刷脸的,我们的餐厅中午是要去刷脸领盒饭的,所以如果是小场景的应用在很多地方已经普及开了。
  如果这是数以万计的视频流处理量来支撑这个智慧城市,如果是数以十万计的,对于一个大都市人口,能够让这个设备进行响应的话,差不多需要5万个智能卡口,就是我们谈这个城市,这个城市一定是要被看得见的,那5万个摄像头对一个城市提供这样的服务,它要处理的视频规模大家可想而知。
  这样的一个城市大脑,每年所要去处理的图片数量大概是3千亿张,有3千亿张图片,使得像我们的大脑一样,把这个城市认识和理解,从而成为整个智慧城市进行智能化服务的基础。
  另外我们在人工智能芯片平台也是一样的,很多的传统芯片并不是为人工智能深度学习来设计的,那你如何使得它的效率更高,不管是在训练还是在实战判别的环境里面成了高性能的芯片?我们看到视觉的智能一定要跟新一代的芯片做结合。
  自动驾驶平台,商汤科技选取了一个比较别致的自动驾驶的方式,首先我们跟全球最大的车厂日本本田公司进行联合研发这样的路径,我们负责本田的无人驾驶这样一个大的战略里面全部的视觉识别部分,成为它整个无人驾驶战略中的重要组成部分,然后在这个联合研发过程当中,去打造一款能够完全进行量产,进行车标,汽车行业标准这样的一个智能驾驶平台的出炉。
  智慧医疗平台和人工智能教育平台,其实人工智能所在的价值创造和产生已经超出了它的想象,比如说我举一个例子来看,17年和18年过去的2年,商汤科技在国内和国外一个重大的显著成绩是说,我们在融资上取得了很大的成功,在过去的2年里面我们累计融资超过20亿美元,现在公司的估值是60亿美元。
  大家想说,当我们获得第一笔超过以亿美元为单位的融资的时候,业界会对我们很好奇,但是当我们的融资金额超过10亿美元的时候他们会更好奇,现在我们已经超过了20亿美元,在很快的时间可以创造更大的融资数据,但是我想展示什么呢?
  其实资本也好,各地的政府也好,产业也好,最终其实是价值驱动的。也就是说人工智能之所以能够获得这么好的一个价值体系的最主要的原因,还是因为价值的创造,今天是因为这是一个更多技术跟学术和产业的探讨,我并没有把很多商汤科技在商业上取得的成绩来进行宣讲。
  但是我想今年9月份国家能够把新一代的人工智能开放创新平台,在视觉领域这样一个国家的荣誉里面授予商汤,这就是一个最好的证明。大家也可以看到,其实在我们前面获得资格的企业全部是我们的前辈,都是巨头型的企业,我们是一个创立不到4年,刚刚过4岁的一个企业,所以我们看到的趋势是说,正是因为技术的突破,使得人工智能从有趣变的有用,整个工业化的人工智能研究方式,整个的变革跟升级使得这样的一个有用价值得以快速放大。
  那我们看一看既然我们讲到了价值放大,我们看一看现在所讲的整个创新方式到底在哪些行业里面取得了应用。这是我们目前看准的18个行业,我也是很自豪地看到,高科技已经完全走出了概念探索、观念普及、实现方式探索的阶段,我们在这18个行业里面已经完全实现了比较成功的商业化。
  商汤在过去的差不多4年里,每年也是保持着4倍左右的增长,延续4的3次方其实还是蛮大的金额。最后我以商汤讲的变革创新,拥抱未来这样的一个视频,来结束我今天的分享。
  谢谢大家!跟我们一起变革创新,拥抱未来,谢谢!

 

收藏