2018年4月13日上午:人工智能论坛——赋能发展,价值重塑
承办方:赛迪顾问集成电路产业研究中心
9:00-9:30 可重构架构支撑人工智能计算:一种架构创新的视角 清华大学微电子所副所长 尹首一
9:30-10:00 人工智能芯片的设计与应用 深鉴科技商务副总裁 刘竞秀
10:00-10:30 AI 处理器助力自动驾驶产业化 地平线软件研发总监 李育国
10:30-11:00 AI芯片对人工智能应用拓展的底层硬件支持 深思创芯 CEO 俞德军
11:00-11:30 开启智慧医疗大门的钥匙:AI专用芯片 深思考人工智能CEO、首席架构师 杨志明

2018中国半导体市场年会暨“IC中国”峰会

人工智能论坛——赋能发展,价值重塑


时间:2018年4月13日 9:10-11:30

地点:南京万达希尔顿(颂庭厅三层)

主持人:

尊敬的各位领导,各位来宾,大家上午好!欢迎大家来到今天的人工智能论坛。我是本论坛主持人,赛迪顾问分析师李丹。
非常荣幸能和各位来宾相聚在这美丽的南京,分享国内人工智能行业尤其人工智能芯片行业所取得的丰硕成果。过去一年,AI芯片无疑是人工智能方向最受关注的行业热点,不少业内人士更是将去年定义为“AI芯片元年”。人工智能这一项新兴技术,正在以AI芯片作为载体全面崛起。今天我们非常荣幸的请到了AI芯片学术和产业界的顶级专家,为我们带来人工智能领域最前沿的技术和产品分享。
在人工智能日益火热的今天,现有的通用计算平台难以实现高能效的神经网络计算,探索新型神经网络计算芯片架构,成为芯片领域的研究热点和学科前沿。清华大学尹首一副教授带队研发的Thinker 1可重构混合神经网络计算芯片,在2017国际低功耗电子学与设计会议上获得了设计竞赛奖,这也是中国大陆单位 首次以第一完成单位 获得此奖项。下面让我们以热烈的掌声有请清华大学微电子学研究所副所长尹首一教授来为我们讲解可重构架构支撑的人工智能计算。有请尹老师。

尹首一:

大家上午好,感谢赛迪顾问的邀请。非常荣幸有这个机会在这儿和大家分享一下我们在人工智能计算方面的一些研究成果,包括我们对这个方向的一些思考。
我今天报告的题目是“可重构架构支撑人工智能计算”。我们在具体介绍我们架构设计前,我们先来看一看我们今天讲的人工智能到底是什么样的概念。
这是一个我们现在耳熟能详的概念对比的一个关系图。我们看到今天我们广泛地在各种媒体、新闻或者是科技类的论文里看到的人工智能的概念,实际上这是一个最广泛的概念,它是最外边的圆环。我们今天说的深度学习,实际上只是人工智能里面的小子级。它是我们经过对人的大脑一些分析,模仿人脑的神经结构、神经网络机构、神经元结构,设计出来了神经网络,再把神经网络的规模变大、层数变深,构成了今天的深度神经网络,使用深度神经网络的技术,我们把它称为深度学习技术。从他的发展趋势和历程上来看,实际上是从模仿人脑的结构到我们今天的深度学习这样一个脉络。具体来说,我们说一个人的神经元神经抽象成数量上的描述到现在的计算,一个人工神经元抽象出来大概是长成现在这个样子,核心做的功能是一个数学的加权求和,再经过一个激活函数,非线性的函数完成这样一个运算。一个、单个人工神经元实际上它可以完成一个我们称为叫做线性分类的一个问题。当我们人工神经元组合在一起,构成了一个多层的结构,就是我们说到的神经网络,一个神经网络它的表征能力比单个神经元很多,所以它能够处理一个复杂的非线性分类问题。
我们再把这个神经网络的层数不断加深,我们看,这就构成了一个深度神经网络。今天我们大家比较熟悉的、这样常用的,它的规模可能能达到1000层左右,这样大的一个规模的深度神经网络,就具有很强的特征提取和信息表征的能力,就构成今天深度学习最基础的一个技术。我们说深度神经网络成为今天深度学习或者说成为今天最流行的人工智能技术的一个技术路线,那么我们要去高性能或者高能效去计算深度神经网络,就需要分析一下深度神经网络本身的特点。今天我们看到在实际的AI应用里边,比较常见或者最主流的深度神经网络构成足球部分,是由这三类,不同的神经元层构成的。比如说卷积层,它是最适应的应用场景是视觉类,包括视觉处理,包括图象分分割等等视觉类的应用或者是图象类的应用,它的核心的能力是做世界特征的提取,这是他最擅长的。第二类我们称为全连接层,这也是传统的多层板聚集的结构,它的优势功能是做分类,所以我们看到在做图象分类,比如其他一些各类分类的任务的时候,我们都会用到全连接的网络连接。
第三类是递归的网络结构,它实际上是我们前面看到全连接网络结构,再上一些反馈构成一个反馈的环路,它的特点能够很强处理时序数据。像我们平时自然语言交流,我们语音识别、我们语言间的翻译,都有很强的时序性,这是它时序做数据处理。这是我们现在看到,今天我们讲的所谓的人工智能,我们讲的深度学习、深度神经网络里边最典型的三类计算,我们需要处理的三类神经网络的计算的组分。我们看从计算的角度,我们今天要讲人工智能的计算,或者我们今天的主题是人工智能芯片,核心是解决一个计算的问题,我们看这里边的特征是什么?我们在设计架构或者设计芯片的时候,我们首先要分析这个算法的特点,这里边我们简单来看,从一般的角度来看,深度神经网络,我们说的深度学习,它有三个主要的特点。
第一,从性能、功能的角度来讲,它的TOP1准确性很高,这从某种角度来讲,也是今天我们的深度学习或者人工智能这么受关注的一个很主要的原因,因为它能提供一种比过去的非神经网络这样的技术更高的识别率、更高的准确性,所以受我们今天的关注。从计算的角度来讲,深度神经网络层数很深,必然会带来一个很大的计算量,也就是计算复杂度会非常高。第三个特点是网络本身有大量权重参数,我们模型体型很大,无论在学术界还是在工业界投入很大的精力在研究我们的模型压缩,我们的网络减值(音)这些一些技术,都是为了解决参数量大的问题。 这是我们从神经网络的整体来看。当我们深入到神经网络的内部,去分析它层与层之间的特点,我们还会发现有一些特色的地方。比如下面的这张图里面,我们选用一个用来做视觉抽取的深度神经网络。这有一条曲线,这条曲线代表了不同神经元层之间密度和差异,可以看出这是一条波动性很大的曲线。说明在计算的过程里面,神经元网络计算密度会随着层不断变化,决定了数据复用的模式有很大的差异,数据访问的模式会有很大的差异,我们看到深度神经网络从计算角度来看,最主要的一些特点。从应用层的角度来看,我们说深度神经网络去做一个计算,我们需要一个什么样的计算器件?
首先第一个最重要的需求一定是一个可编程的或者具有一定通用性的这样的计算芯片。因为今天我们看到在不同的AI应用里面,小到一个手写体识别,大到一个复杂的视频理解,我们用到的深度神经网络的结构,深度神经网络的规模,不同神经层的组合有很大的差异。换句话讲,不同的AI应用,是在使用不同的神经网络里,所以可编程性或者通用性很关键,这样你才能够覆盖大量的具体的应用场景。第二个最重要的需求是我们说能效,大到数据中心,小到我们说的移动设备、电源计算,能效都是今天我们现在设计任何一个芯片的时候所追求的核心目标之一,数据中心提高能效降低运营成本,电源计算、移动设计电池供电的能力,所以我们能效的需要是我们设计的最主要的目标。从应用角度来分析,我们今天需要的是一个达到每码几个T操作能力可编程的计算芯片。这就是我们今天说从应用角度,从我们现实需求来看我们需要设计一个什么样计算芯片。
接下来我们看一下,如果我们去设计这样的神经网络处理器或者神经网络的计算芯片,我们面临一些什么样的挑战。首先来讲,神经网络本身还是有它的独特的特点,比如说这里边一个很重要的特性,是我们在处理神经网络特征图和网络模型里面,有大量的稀疏性,具体来说就是我们再处理的数据里面有很多数据是零,这零的产生是由与网络设计本身,一些设计上一些激活函数的选择导致的,就够给我们的芯片设计或者我们的架构设计带来了一些问题,因为大量的零实际上是带来了不必要的计算以及内存的访问,这给我们的芯片本身可能更大的功耗或者性能的一些的损失,这是一个主要的特征之一。
第二个特征是我们说在一个神经网络里面,不同的神经元层之间它有不同的需求,神经网络本身现在是一个高度融错的,所以我们对不同的神经元层可以采取不同的量化方式,去进行网络的定点化。当我们用一个低位宽作计算单元去做计算的时候,它明显要比高位宽的计算单元更省电,这也提供给我们一个降低系统功耗机会。我们怎么样去试配不同的神经网络在不同的层上面的不同的精度需求,成为我们在设计的时候一个很重要的考量的要素。
第三个我们认为很重要的特点,是神经网络计算的时候不同层之间的计算跟方程的需求实际上是不均衡的。我看到这里边有一张图,这图里边有两条曲线,一条曲线是随着神经网络计算的时候它的计算资源的利用率的曲线;一条曲线,是访存带宽利用率的曲线。我们看到这两条曲线有很大的波动,一部分是呈现计算密集型的特点,一部分呈现访存密集型的特点。这个问题也带给我们设计架构的一个挑战,你要保证计算资源跟访存带宽的同时的高利用率,如何去平衡这两者之间的不均衡的要求,成为我们设计中要考量的要素。
这个计算和访问不均衡的这种需求,实际上在现实的应用里面或者在我们实际的数据中心里面,也是广泛存在的。这张表Google在去年,国际计算机体系结构大会上公开发表的关于他论文的一张表。这张表我们看到,在真实的Google数据中心里面,大概从专机、全连接包括递归神经网络都同时存在,呈现出混合的一个特点。所以这种计算和访存的不均衡,实际上会带来实际系统应用的时候,带来一些挑战。
回到我们做芯片设计的本质,那我们说做任何一个计算架构或者计算芯片的设计,核心是选择一个适合我们应用场景的架构。我们看到最近这几年从学术界、工业界有很多探索,包括这里边我列了几个比较典型的计算架构,一个是我们采用专用指令集处理期,寒武纪处理器。第二个是Google的采用脉动阵列方式的,TPU。第三个是MIT采用空间架构设计的Eyeriss处理器。我们看到如果我们抛开人工智能、深度学习这样词不论,我们回归到架构设计的本质来看,我们所要设计的架构,它同时要考虑到本身所处理的应用是一个计算和数据密集型的应用。第二我们要兼顾他具有可兼程性。第三个它需要具有高高效,如何去平衡这三个看似互相冲突,是我们做架构设计的核心。
在这一方面我们做出一些我们的探索,就是我们从2006年开始,我们就在进行可重构计算架构的研究。这是我们在可重构架构方面的一个研究的历程,从2006年开始我们在自然资金,国家“863”计划下,开始在探索可重构计算的理论和基础的架构。在此以后,我们也设计了一些领域专用的可重构处理器,在2015年开始我们把这种可重构计算架构应用到深度神经网络、深入学习的里面去,设计了THieker系列的AI芯片。
最近这两三年,我们看到国际同行也在纷纷投入和关注这种可重构计算架构,这是2015年的国际半导体技术路线图。咱们半导体行业同仁对这个报告非常熟悉,这是它其中的第九章,也就是关于计算架构的发展趋势预测里边,特别提到了可重构架构,作为未来的新兴计算架构,一种解决瓶颈机构一种非常有希望的技术路线。
去年的时候,我们看到美国的DARPA,它发起了叫做电子复兴计划的这样一个研究计划,这里边说到电子复兴计划,它是为了保证美国在2030年以后仍然在电子信息领域具有全球领先的地位,所做了一系列基础性研究和探索。这里边三个核心支柱,包括材料、架构和设计方法这三类,那么在架构这里边他们定义了一个技术,美国人定义了一个技术,他们把这个技术称为软件定义的硬件。
如果我们看软件定义的硬件的定义的话,DARPA给出的官方定义,就是构建运行时可重构的硬件和软件,同时能够在不牺牲数据密集型算法的可编程性前提下实现接近ASIC的性能,这正好就是我们所说的可重构计算架构和软件。它的核心要素是设计这样一个可重构架构,包括了两个部分。一部分是运行时可重构的处理器,一个是对应的编程语言和编译器,这是两大核心任务。之所以最近这几年可重构计算这么受关注,或者说他包括美国DARPA,包括国际半导体技术路线图都把它列为未来的研究的重点,实际是来源于它的高能效的特征。这张图是如何把我们现在实现计算典型的几种方式,包括微处理器,基于指令集的DSP、专用继承电路,这几类不同体现的技术路线以及我们的可重构硬件,这几类不同技术路线放在一起比较的话,我们会发现可重构硬件它具有接近专用集成电路的计算能力和高能成效,同时它具有一定的灵活性、可编程性。这恰恰就是可重构计算的魅力和价值所在,能够给我们提供一种在这两者之间很好的、均衡的一种解决方案。
对于可重构计算来说,它的基础使用模型,我们看是由用户去编写一个高层的编程语言编写一个应用,经过编译工具形成对可重构处理器的编程,然后实现在可重构处理器上这样计算任务的运算。它的基础硬件架构,这里我们看到这一个看重构基础硬件架构,典型是一种二维的并行计算,空间并行的机构。但可重构架构最大的特点是它实际上是一种时空的二维的计算。从时间角度来讲,在每一个时间片上,可重构计算里面的功能实际上都可以对应进行重配或者改革。这样就体现了它在应用的可编程性灵活性,同时空间并行架构又保证了它具有很高的性能和极高的能效,这是我们说基础的硬件架构他的优势,配合着这样基础硬件架构,我们也设计了一套完整编译的流程,可以从比如高层现象编程语言编写的这样的高级语言编写应用,我们的AI或者我们深度学习的应用,到我们处理器上可执行的计算它的一个完整的编译流程。这是我们对可重构计算的基础架构一个研究。
从2015年这种可重构计算的基础机构应用到了我们深度学习的处理器的设计里面,设计出来了一个系列的Thieker,人工智能的计算芯片。它的特点主要有三个,第一是我们在芯片的整体架构设计上采取是一种并行的设计,左边的架构图上面看到有一个核心的计算架构,构成我们计算的核心部件,在每个计算阵列里面,我们设计了两类异构的计算单元,我们称叫通用的PE或者超级的PE,分别具有不同的计算算子的支持能力,去试配我们深度神经网络不同的应用的场景。
第三个很重要的特点就是我们这里实现了三个层次的可重构设计,也就是前面提出的可重构架构的核心,它的这种特点和可重构能力。第一个层次我们把他称为PE级的可重构。幻灯片上四个图实际上是对应着同一个PE,在进行不同任务计算的时候,它内部的数据通道的变化的情况。我们看到在这个图里边,我们通过电路级的数据通道的重配,实现了不同神经网络里面的核心算子的计算功能的支持。比如说进行卷积计算的运用时候,这个数据通道的形式,右上角是做全连接计算的时候,这个数据通道的形式,左下角是地纬网络计算的数据通道形式,我们看到用同样的硬件的电路,通过电路层的重构,实现对不同计算算子的完美的支持。
第二个层次的重构,我们叫运算部件级的重构,运算部件级的重构是为了解决我们前面看到神经网络对不同层上面的量化位宽可以有不同的需求,我们通过运算部件,也就是核心的乘加计算,运算部件的精巧的设计实现一种位宽适应的计算。我们可以在计算的数据位宽高的时候,去处理高位宽的数据,同时我也可以把这个计算拆分为很多个低位宽的单元,去处理数据位宽低的运算。这样一种方式极大提高的运算并行性,同时挖掘了硬件性能的建立,这是第二个层次的重构。
第三个层次的重构称为计算阵列级可重构,我们前面看到这种一个256个单元构成的计算阵列,它本是是一种灵活的、可拆分、按区可分区的阵列结构。就是我们可以把一个神经网络不同的层拆分为不同的部分,配置到阵列里去,不同的层在阵列里面并行的执行,这样具有一个非常灵活的弹性计算能力,能够完美试配网络本身的计算量,以及访存带宽这样不同的需求,提高了整个阵列计算的能力。
如果从具体的架构的角度来看,我们这种按区阵列分区的能力实际上是整个推理的计算过程,在我们硬件上能够被流水线化起来。这种流水化实际上我们在微处理器流水线的设计,是提高计算能力非常核心的这种技术路线。除此之外,我们还设计了一个系统的一个编程模型,前面我们提到对于可重构计算来讲,一部分是硬件机构,前面讲到的是我们硬件架构几个核心的设计,下面看到这张图片是我们编译旗里面的设计,通过对我们输入神经网络结构不同的的分析,它的不同需求的分析,我们可以把一个阵列,我们说到的计算资源,灵活分配到神经网络层去做计算,很好试配网络本身的特点,并形成一个自动化这样编译、编程的能力。我们前面提到可重构计算的基础架构,可重构机损的编译工具,我们设计了在2016年、2017年基于这样的架构,分别设计了三款计算芯片。
我们看到第一款芯片是2016年我们用台积电65奈米完成实现的。它的特点是根据通用的神经网络计算,同时能够支持包括我们现在熟悉的转机、全连接、递归复杂的神经网络的组合和应用。我们看到对面提到的,在数据中心在我们边缘设备上我们T级计算能力的目标,实际上可以满足这样的需求。
第二款芯片是我们去年采用台积电28奈米完成的,它的特点是加强低功耗设计方面的技术,尤其是增加了对低位宽网络的支持。在这样一个芯片里面,我们看到它的功耗可以控制在100毫安以下。我们做实际应用的时候,做人脸监测,能够非常好适配低功耗设备上的系统。
第三个芯片是去年完成的一个专用的语言处理的芯片。包括语音唤醒、包括连续语言的识别。这颗芯片的共哈最低的时候可以低到200V瓦(音)这样的样子,非常好支持超便携的设备,可穿戴设备无论是手环、耳机还是其他未来可能出现的超便携设计都非常完美地可以支持。我们看到这三颗芯片的超高能效、超低功耗这样木的实现,实际上得益于我们前面讲的可重构架构。在架构层次上的先见性,使我们这种芯片具有这么好的性能,我们从这三颗芯片的实力也可以看出来,这样一个非常理想的新能、功耗的平衡,实际上恰恰就是我们今天提到的可重构计算架构的优势和魅力所在。
在于它可能给我们提供了一种通用的AI基础的框架,使得我们过去分割在不同领域AI的领域,今天成为一个统一的平台支撑这样一个形式,给我们做集成电路、芯片设计的这种机会成为一种可能。第二是我们在深度学习里广泛使用深度神经网络,它有一些特别独特的特点,使得我们需要设计一些专用的或者领域专用的处理器,无论是对于数据中心还是对于我们的设备,这种需求非常明确也非常现实。第三在我们去设计这样芯片的时候,从根本上讲,从计算架构上创新,实际上是芯片设计的最核心的要素。这也和在我们过去回顾一下未来30年计算机体发展的历史非常吻合,今年的计算机图灵奖授予两位计算机体系结构分析的泰斗。从某种意义上来讲,未来在我们AI时代,计算机体系结构在这样一个宏大的时代里将会扮演一个重要的一个角色。总的来看,我想今天人工智能的大潮,一定是给我们的新型电动产业带来一个巨大的机会,无论是我们的芯片设计还是将来的芯片应用,都会给我们半导体行业、半导体产业带来一波推动力。
谢谢。 (鼓掌)

主持人:

非常感谢尹老师的精彩演讲,可重构计算芯片技术实现了软件定义芯片,在实现AI功能时具有独到的优势,我们相信其在未来会有非常广阔的应用前景。再次感谢尹老师的精彩演讲。
2017年, AI芯片创业公司受到了整个市场的关注,深鉴科技无疑是其中的佼佼者之一。深鉴科的深度压缩技术和神经网络架构在人工智能领域有着广泛而深入的影响,虽然成立只有2年时间,但深鉴科技在深度学习图像与语音处理上已经取得了丰硕成果,在今年三月份的HPCA国际会议上,深鉴科技展示了目前国际领先的CNN处理器架构,相比传统CPU、GPU,该架构在能效比方面有一个数量级的提升;其自主研发的 “听涛”、“观海” AI芯片也即将面市。下面我们有请深鉴科技商务副总裁刘竞秀先生为大家解读人工智能芯片的设计与应用。

刘竞秀:

谢谢主持人,各位嘉宾早上好。很荣幸借着这个机会和大家分享一下实践科技对于人工智能芯片的行业发展趋势和我们自身对于行业应用的一些理解。
人工智能这个行业由三个重要的方面组成,这个已经是现代行业的共识。从算例的角度来讲,这个都是做人工智能芯片的公司所重点工作的地方,我们希望为人工智能的各个应用提供高效的计算能力。从算法的另一个角度,就是算题,就是在不同的行业、不同的场景基于特定的需求、满足特定的性能,而现在人工智能主要对于算法的应用是基于深度学习和神经网络的一类需求。
那我们都知道,在过去的几年中,随着移动互联网和大数据广泛的发展,在各行各业积累了大量的数据,而要去处理这些数据的芯片行业,最多18个计算能力翻一番。我们过去几年内,在所需要处理的数据之间和我们能够提供计算能力之间差距会越来越大,在最近几年从2012年开始,这一波人工智能浪潮发展起来,2015、2016年这么多人工智能公司雨后春笋一样出现。但是我仍然发现人工智能的落地还是受到很大的瓶颈、性质,这个剪刀差是我们理解阻碍人工智能在很多场景一个非常非常关键的重要的因素。
无论是像微软、亚马逊、Google这样行业巨头,都在着手制定和开发一些专用的人工智能来促进AI产业发展。所以从AI芯片设计的发展趋势来看,从通用的CPO到专用的图像处理的GPO,再到定制开发可重构的FBGA,再到具体的定向场景专用集成电路,这个应该是人工智能芯片发展一个主流的方向,对于我们创业公司来讲,我们想做的事情,就是利用自己的技术优势,在某些场景下缩短数据和计算能力的剪刀差,而帮助想用人工智能做产品的公司,为他们的产品赋予AI的能力,帮忙他们产品在很多场景下尽快落地。
现在我们看到的AI主流的场景大概分这样几类。一类是跟视频监控相关的,这里的视频监控涉及到很多行业,从最主流的跟安全相关的国家天网工程、田园城市、水上工程,到跟交通相关,跟国际明星相关的智慧楼宇、智慧社区相应的场景,而这一类场景也是现代所有的AI公司都要着力落地的一个重点的方向,第二类应用是跟数据中心相关的,我们都是知道说像亚马逊、像阿里都有世界上最大的共有云服务平台。这些公司在他们共有云已经逐渐成熟之后,慢慢思考下一个演进的路线,就是要把共有云慢慢向所谓AI因素转换。在这个期间灵活的、可重构、高效的AI芯片,是能够帮助这些云平台公司快速落地的一个很重要的因素。
第三个应用场景是跟机器类相关的应用场景,无论是跟机器人相关的还是跟自动驾驶相关的,这一类的场景我们可以看到,无论是像百度做的系统,以传统的机车行业的巨头APP,都在投入巨大的资源和巨大的能力和巨大的平台来做辅助驾驶整个系统的开发。任何一个场景,无论算法做得多好,技能做得多出色,最终一定是需要一个合理承载的平台,也就是高效的定制开发的芯片,来帮他们做具体的场景落地。
而在各个场景里面,说到本质上大家追求的目标就是两个因素,一个是能效比、一个是性价比,能效比就是单位功耗可能提供算股(音),性价比就是一美元或者一块人民币我能提供多少计算能力。
从AI芯片芯片发展的角度来看,可以看到说其实芯片从最开始的变通用性质的专用芯片,发展到面向图像处理的GPO,再到现在众多AI创业公司所做的专用AI芯片。通常来讲,越是通用的芯片设计的复杂度越难一些,因为他要考虑不同的场景要做到软硬件的结合,要支持足够复杂的指令集和通用性。所以从芯片设计的角度来讲,通用芯片的设计复杂度是最高的。AI芯片或者AI行业的通用认识来看,AI其实是一个非常广泛、通用的概念,从上世纪中就有学术界提出人工智能的一个定义。所谓的机器学习是人工智能的一个子辈、一个子级,最近热炒的所谓的人工智能其实是非常狭义的一部分,也就是基于深度学习和神经网络的一些应用。
面对深度学习和神经网络这些一类应用所定植开发的专用芯片,比如说自动驾驶也好、面向机器人也好、面向人脸识别也好,这类专用的芯片在设计上复杂度通常来讲比传统相对简单一些。
从行业看到主流的芯片,无论最左侧的、最通用的,一直到最右侧的芯片,中间在不同的节点、不同的市场定位的各式各样行业巨头和创业公司的芯片。我们可以发现说,其实现在很难讲,每一个技术路线就是最优的,他每一家选择自己市场定位的时候,基于自己的背景考虑自己技术的实力,基于自己对市场的判断,考虑各方面各式各样的因素,甚至包括融资的因素,来选择对自己公司发展最合适、最有效的市场定位。
从神经见证这个角度来讲,我们认为说AI芯片不太能是特别定制专用的芯片,它一定具备通用的灵活性,为什么呢?AI本身并不是某一个特定的行业,它是对各个行业能够复能的一个技术,所以你做一个AI芯片一定要具备一些能力,能够从一个行业复制到另外一个行业。你从一个行业做到另外一个行业,用过的场景和需求都会发生变化,这个时候需要你的芯片具备一定的通用性,跟传统的相比,我们的AI芯片一定要性价比具备非常出色的优势,才能让现有的用户能够在承担一定的平台签仪成本的情况下尝试你新的AI芯片。
对于我们来讲,我们认为AI芯片一定是一个在通用性和定制的专用性之间一个折中,这个平衡点在什么地位,每一个公司有不同的考虑。
刚才我们讲到AI芯片的基本方向趋势,下面我分析一下AI芯片设计的一些潜在的瓶颈。现在的AI芯片主要是面向深度学习和神经网络这样的应用,这类应用有什么样的特点?第一类特点是说,我们在设计芯片的时候,我们最主要的目标是为了让所有的计算单元在进可能的时间里边充分应用,但是光有计算单位也不够,你还要有足够的带宽,在需要被计算的数据送到所谓计算单元上。这个运算单位像发力水坝一样,你有足够的河道把水送到发电站,才能有电力有输出的结构。在很多的芯片的应用场景里面,会存在说访存带宽不够,会导致计算单位没有办法充分工作这样的情况,这是所有AI芯片设计公司所彭碰到一个潜在的问题。
上面的典型的一些加减乘除的应算所消耗的能源,最后一行是对外部存储单元进行数据夺取所需要消耗的能源,我们可以发现说,片外存储所消耗的功耗是远远大于片内的功耗,这就是说传统的GPU虽然很高性能,面向人工智能应用的时候仍然功耗非常高,没有做到低功耗很致命架构上潜在的设置。
刚才讲到说,首先要满足AI芯片设计对于人工智能带宽的需求,另一方面光有带宽你还要有足够好的能力,要这些带宽充分利用起来。第一行是整个芯片最核心的取证计算所占有的利用率,其实只有28%,不到30%,这就是TPU设计非常丰富片上的存储,它的带宽率相对比较低。这代表说,仍然有很大的提升空间,所以TP(音)很快推出了第二版的TPU。
面对前面的问题,现在一些主流的解决方案大概有这样的分类。第一类优化所谓计算引擎,就大家在干一样事的时候,在相同工艺下我的架构就是比你的架构算得很快、更高效。第二种方式是通过优化片上缓存系统的方式,为了让数据复用的效率尽可能高,典型的方式通过设计超长的流水线,或者是简单增加片上存储空间的方式。
第三类是软硬件协同优化。现在对于神经网络吸收化的研究越来越被广泛的认可,而从整个芯片的角度来讲,充分利用这种需求性在软件和硬件两个层面协同推动优化里进一步提升芯片的效率,这个是我们看到一个非常重要的趋势和方向。
既然提到软硬件优化,我们就要回来看看CPU在整个产品的产业链上的一个地位。帮它做芯片的生产、代工,呈在CPU上面的,无论是操作系统、驱动、各种数据库、应用程序以及终端的应用,都是由各种各样的转月公司来做,这个在一个非常成熟的生态环境中是一个典型的分工协作的结果。面对AI这样一个新兴行业,面对AI这么多创业公司来讲,我如果只作核心IP架构的设计和优化,我可能完全没有办法存活。所以我可能需要做往上多一点两层。我为了让别人能够更高效、更容易把我们的AI芯片应用用起来,我需要自己把我们的芯片包装起来,这个包装既包括操作技术,包括相应的驱动,包括典型的系统环境,我包给客户的就是已经能够直接利用AI芯片软件的接口,这样的产品和这样的接口的定义,尝试AI芯片最低成本的方案。
无论是英伟达也好,都在做大量的事情朝这个方向做系统的演进和变化。英伟达其实不是一家做芯片的公司,也不再是做高性能计算的公司,所谓的软件公司,英伟达研发内部的软件工程数量远远超过硬件和芯片的数量。从整个英伟达产品整个布局可以看到,无论跟安全监控的相关系统,跟自动驾驶相关的技术,它为了支持各种各样的库、各式各样的场景、各种各样的框架,所付出巨大的成本都是为了让别人更容易把他的GPO硬件用起来。我们都知道FBA是一个很高效、很灵活的硬件平台,但它有应用的门槛,非常难用。所以“304”也在布局,从人工智能顶层的框架到中间到低层编译的环境,投入巨大软件的精力让客户更容易把它的IPG用起来。所以我们从304和英美达这样一个产业布局可以看到说,对于我们现在AI公司来讲,无论是行业巨头还是初创公司,生态环境是最重要的一个指标,那你的生态环境足够好才容易让别人更容易把你的东西用起来,别人把你的产品用起来才能做产品的迭代,做更好的芯片。
我们在软硬件协同方面一些基本的理解。软硬件协同设计会有三个主要的目标。
第一个目标单纯从硬件设计和硬件架构来讲,提供更高的效率和更高的性能。第二点会通过软件生环境来提升效率。第三点从需求的角度来讲,对神经网络进行相应的压缩和剪枝,也就是在做一样的事,我们的神经网络就是比你的神经网络所需要的计算能力低,所以我对芯片、成本、性能的需求也会相应的降低。这三个点是我们做芯片设计、最软硬件协同优化最主要的出发点。
这个点有两张图,相对比较复杂一点。第一个是不同的神经网络在计算能力、神经网络各个层之间的分布。我们可以看到,柱状图比较高的部分通常都是卷积运算,这个很直观。现在典型的神经网络大量的计算都是这种卷积运算,这也是为什么现在的深度学习的网络对于计算力的需求要求特别高的一个主要原因。就说一个几千、几百层、上千层这样一个卷积网络,自然而然这每一层有几百万参数,自然而然对计算量的需求就很高。下面这张图是一个对于存储,在神经网络不同层的需求的分布。你可以发现说,其实单纯的卷积计算前面几层对于存储的需求远远没有全连接层这样操作对存储需求高。所以你在做硬件架构设计的时候,单纯把卷积做得特别高效,或者单纯把所谓的全连接做得特别高效,都没有办法满足输出的高效能。从神经网络算法的演进来讲,还有11×11这么大的卷积和,到2014年出了Google,然后Google出了V1、V2、V3各个版本,然后到2016年、2017年各种小的网络、高效的网络逐渐出现。我们发现说神经网络的演进非常非常迅速,通常半年,最多一年就会有新的架构、新的网络出来。我们做芯片设计最少最少需要一年的周期,多多少少我们在做芯片设计的时候都是具备一定的前瞻性。而这个前瞻性基于我们技术的积累,很多时候也会有一定运气的成分在里面。
而在同一个神经网络内部,你可以看到不同层级运算的方式也完全不一样,比如说一些卷积运算、非线性运算、实化(音)运算、全连接这些计算,你要在同一时间支持这么不同计算需求的运算,要做得很高效、灵活,这本身对硬件的架构和软件系统就是一个很大的挑战。
那怎么解决这些问题?其实我们看到现有面向AI设计芯片的解决方式跟传统的体系架构所用到的手段是完全一样的,只之过传统的手段要结合深度网络和神经网络的这些一些特点,做一些定制的试配。在计算这一侧,我如果想要让这个芯片算得更快,肯定是最直接的就是对更多的计算单位,自然而然带来更高的功耗、更高的成本。那再有相同计算单元的情况下,我要做的事情就是充分利用这些计算单位,所以我架构的设计、流水线的排布、总线的设计、指令集的设计,这些会影响我运算单元计算的效率。对于带宽需求这部分,这方面通过计算的架构来提供更多的带宽,另一方面本身减少对带宽的需求,然后再保持相同的架构情况下,让网络算得尽可能快。
所以刚才提到这些手段,本身来讲都是需要软硬件急用(音)和考虑才能提供更高效的这样一种方式,比如说我需要这个更多的运算单元,相同运算单元的情况下,我从32彼特(音)的计算到8彼特的运算到2彼特的运算,自然而然就可以支持运算的次数,模型的压缩本身对于硬件架构和计算量的影响就会非常非常大,这个在后面我们也会有相应的介绍。
这张图是我们把业界、学术界一些典型的芯片和相应的AI解决方案的性能放在同一张表格上面。我们会有一条斜的曲线,这每一条斜的曲线就代表一种能效比,各种不同的尺标。我们可以发现说,从这个功耗的角度,我们看到这些芯片面对不同的行业,比如说像几十毫瓦这个级别,传统的IOT芯片,比如像物联网的芯片,他需要几个月的待机时间,而且他并不是实时就在做数据的运算和相关的传输。而在几百毫瓦这样一个区间,通常是手机芯片这样一个处理的范围,在最右侧超过100瓦,基本上都是特斯拉(音)这样的超大性能,非常贵、功耗也非常高,面向云端的解决方案。
而在中间我们看到说在1-10-80瓦这样一个区间,这样一个功耗区间能效比非常高的一个部位,基本上没有特别多的解决方案。这也是当时我们在做芯片定位选择的时候,一个很重要的考虑。因为我们发现说,做云端芯片本身对于架构的设计,对于功耗的处理,以及对于成本的要求就会非常非常高,对创业公司非常挑战,我们所擅长做的事情,就是在相同的情况下,能够提供更高的性能、更低的功耗,所以我们就会选择在1-20瓦或者30瓦这样一个区间做能效比最高的AI芯片,做我们的市场定位。说到功耗或者能效比,但凡我们提到AI芯片的时候,但是都会我们的峰值性能怎么怎么样,峰值性能是体现一个芯片技术水平一个很重要的指标,是一个非常的重要的手段。但是对于客户来讲,峰值性能并不能代表全部,因为客户拿不到峰值性能,客户所付钱买到的是峰值性能,但他真正能够交付的是峰值性能乘以实际的效率,就是实测的性能。在左边我们大概对比了几个现在主流的AI的IP。最左边的一类是IP的架构,第二类深蓝色是IPone8里的AI、IP的架构,第三类是华为手机受年IP的架构,我们对比了三类非常主流的分类网络。那我们看到这三类网络在做同样运算的时候,硬件的利用率大概是一个什么样的程度。华为大概可以做到10-20%,苹果可以做到20-40%,我们大家可以做到50-80%,这个就代表说在相同的工艺和相同的任务下,通过架构的优化,可以有很高性能的一个提升。
而从压缩和编译的角度来讲,我们也为了让客户更容易的把我们的工具和生态链用起来,制定了了一整套相应的工具链,所谓的深度学习、神经网络开发工具包,这个工具包里包括剪枝的工具,包括量化的工具,包括部署的规矩,所以客户拿到一个训练好的神经网络之后,通过这样一整套工具链可以半自动的很快把最新的神经网络部署在我们的平体上。
这张图是我们给大家分享压缩的一个效果,SSD是检测一个非常主流的放假,横坐标我们我分成七组试验,每组试验里边有两条柱状图,左边的柱状图代表这个网络所需要的计算能力,右边柱状图代表相应的网络的精度。我们可以看到说从传统SSD每家图片处理所需要这样计算能力,我们经过多轮剪枝之后,最终把这个网络变成一个只有11G的网络。我们把90%的网络都砍掉了,最后网络的精度的变化只有1%,只有一个点,在很多视频应用的场景,一个点的变化其实是很难被客户感觉到的,而从运行效率的角度来讲,我们相当于提升了10倍的运算效率,所以这个从需求的角度来讲,我们来做效能的提升,是对端到端性能提升一个很重要很重要的手段。所以从视线的角度来讲,我们会提供这种全链式的解决方案,帮客户把各种各样的深度学习的网络、各种场景的应用,非常迅速、快捷,部署在各种各样的硬件平台上面来。从实践科技的角度来讲,我们现在现有的平台还是基于“304”APP的平台,我们有两类主要的平台,一类我们大概能做到3瓦200G这样一个性能,第二类是中等规模一个平台,大概做到12瓦2.7T这样一个性能。那我们自己的芯片现在已经拿去台积电留片,今年Q2会回来,Q3我们的小伙伴就可以拿到我们的样片,进行产品的继承和开发。
最后跟大家分享一下,我们在整个行业内的解决方案,我们在低层有不同的IP的架构,这种架构可以放在不同的IPT上面,也可以放在不同的芯片上面,上面顶层的应用是我们各种各样产品的模组,就所谓AI的模组。这些模组会集成到客户的各种各样的产品里面上去,为现有的产品提供AI复能这样的能力。在硬件和客户的需求之间我们花了大量的精力,来打造我们的生态链和产业环境,提供各种各样的工具让客户能够不去触碰IPGA,就能把这些很高效的东西用起来。从我们的理解来讲,芯片很重要,生态环境更重要,所以我们非常有信心带着深鉴科技和我们的合作伙伴把AI落地。
谢谢大家。

主持人:

谢谢刘总精彩的演讲,未来新的AI时代会由数据、算法和算力共同驱动,我们相信深鉴科技将会为我们提供更多便捷、高效、经济的深度学习平台解决方案。
地平线作为嵌入式人工智能全球领导者之一,致力于提供高性能、低功耗、低成本、完整开放的嵌入式人工智能解决方案。经过两年多的研发,在去年12月,地平线推出自主研发的中国首款全球领先的嵌入式人工智能视觉芯片:分别是面向智能驾驶的征程系列和面向智能摄像头的旭日系列,这两款处理器采用了地平线自主创新的技术架构,芯片的计算速度可提升10 倍以上。下面有请地平线软件研发总监 李育国 先生为我们讲解AI处理器是如何助力自动驾驶产业化。有请李总。

李育国:

感谢今天能有这么一个机会,来给大家、各位专家来汇报一下地平线这两年来做一些事情。今天我围绕自动驾驶来讲一下我们地平线的一个新片的方案。
我们先来简单介绍一下地平线是一家什么公司。地平线我们最开始名字叫地平线机器人,但是我们现在在淡化机器人一个概念,因为我们不做机器人,我们其实做的是机器人的大脑,所以说我们基本出来说是地平线,不再直接说地平线机器人了。然后我们除了基于芯片和算法一个研发之外,我们还有三个业务方向,一个是智能驾驶、一个是智能商业,还有另外一个是我们的一个智慧城市,区别于一些常见的AI公司,我们其实做做不光是一个算法的技术提供商,我们其实做的一个端到端的解决方案。所以我们在上面建立一个三个应用方向。
地平线其实收到了一些比较大资本的青睐。我们的老板是叫俞凯,他是以前IDL的创始人,也是中国“千人计划”,也是科技部的人工智能战略咨询委员会的委员。我们现在全球、全国的员工有400多人(音),全职员工还包括一些100多人的实习生,在北京市总部,在南京也有100多人的全职研发中心。这边的话,人才配备也很强大的,我们是以硕士为主,包括也有很多的博士。
我们刚才提到了有三个应用方向,第一个智能驾驶、一个是智能商业、另外一个是智能城市。 我们知道现在的一个汽车交通的发展是一个很迅速的发展态势,尤其在中国。这里边就遇到了一些问题,比如我们车辆的交通、一个拥堵、一个安全性,另外一个就是我们长途运输的成本,我们知道我们国家的GDP的有一个很大的部分,其实是由物流成本来组成的,面临一些问题以后,我们认为是自动驾驶是一个很好的解决方案。这是我们认为自动驾驶能够带来的一些优势和刚才问题的解决。自动驾驶的市场及其是一个很大的增长趋势,我们知道通过一些数据的调研可以看到,在2025年会有一个73%左右的一个渗透市场渗透率,另外的话,我们的市场规模会有一个几十倍的增长,另外尤其是在中国,我们的自动驾驶的市场是一个快速发展。我说这些数字其实并不是说大家不清楚,大家都是理解这个东西的,只是确认一下,你们猜的都是对的。
自动驾驶里面,刚才几位专家也讲过。有三个主要的关键点,一个是算法、一个是芯片,一个是数据,我们认为算法这个不作为一个有门槛、太有差异化的东西。因为我们知道现在有很多的创业公司都来做自动驾驶、都来做安防、都来做一个人脸抓拍。他们的算法从一些实验的测试数据来看,其实差别并不是很大,我们可以根据一些最新公开的一些论坛去拿到一些最新的实现方案,从这个角度来讲,算法不能作为一个长期的门槛。另外数据,尤其我们聚焦在自动驾驶的领域来说,自动驾驶数据是最容易拿的,只要我们开着车出采集就很快得到很多很多的数据。那么还有一个算例,其实这里边应该不能叫芯片应该叫算例。我们知道现在社会学习里边分为一个缺点的结构,这个像做缺点是在云端的应问答题PU的天下。我们知道,用CPU来做是超级超级慢的。其实我们我们认为芯片一定是一个最终级的方案。
在这个做无人驾驶里面的话,我们会有一些路线的选择,首先第一个我们认为说计算力需要很强的话,我们完全可以在云端来做,这里边就设计到一个问题,云端处理的话,我们需要在这个中心链路上有一个很大量的带宽传输,这个其实除了带宽传输以外,还有一个它的时效性,假如说我们现在汽车上布置了一个摄像头,然后通过把这些视频实时传输到云端,再去处理这样再回来,那么我们可以理解下这个时间一个会有多少的延迟。假如说我们有一天开一个自己所信赖的自动驾驶车,突然间撞了一棵树,你边上已经很沮丧,抽着烟去思考人生的时候,云端传下来一个指令说前方有一棵树,你需要刹车,我想这个时候你的心情应该是很酸爽的话。所以我们认为在云端来处理这件事情,一定是不可行的,它背后起一个辅助性是行,一定不会是最终的依赖。 地平线认为我们走这个芯片的道路,一定是很坚定的。我们从2016年、2015年成立的时候,就坚定不移在做基于芯片的研发。然后是2015年提出来的,整个TPU是2016年才提出来的,所以我们认为在这一块说我们并不落后于其他国家。
这是地平线BPU的一个研发路线,第一站的芯片我们在去年的12月份已经发布了,这里面我们可以处理一个视频。同时可以做到250个目标的检测,就是我们现在这个会场的所有人,通过一个摄像头就可以全部识别出来。另外它还可以识别八类的目标,比如说我们用再一个自动驾驶的场景的,我们可以识别出来道路,可以识别出来一个前面的行人,可以识别他的脸,可以识别出来他的一个人体姿态,他是往往哪个方向在都走的,另外我们还可以识别出来一些交通标志、信号灯。
第二代的芯片我们已经在快速研发了,进入一个最后的阶段。我们这里边用一些二值化的方法,可以做到一个更高的性能,那么这里边可以做到60频的一个输入,那么第一代的话,只可以做到1路视频的收入,经常用到车里面的前置摄像头。那么我假如说我们在第二代同时处理6路的话,代表我们可以在360度环视的场景里面,前后左右、前侧、左右,我们都可以去布置我们的摄像头,而且用一颗芯片就可以处理到。然后这里边我们还可以做到一些语音分割和场景一个理解,而且这是多传感器的一个融合,不仅仅只是一个输入了。
第三代架构我们把他称作为贝叶斯架构,这里边的话,我们就开始用来做一些决策方面的时候,因为第一代是感知,第二代做多方面的融合,提供更大的一个性能,第三代我们开始做一些决策,我们知道自动驾驶里面有一些关键的节点,第一个是感知,第二个是见果(音)据测,最后一个是控制。
这是我们刚才讲的自动驾驶的一些关键的节点。第一个是要感知,感知这一步我们已经做得还是不错的,包括行业内其他公司也做得不错,感知的时候先知道我面前的人是不是有人、是不是有障碍物、是不是有一些危险区域,这是感知层面的事情。另外一个是到了第二步的时候你要做一个见果(音),我们要基于多传感器、多方面的数据,比如说高清地图、雷达、超声波雷达、激光雷达数据的一些融合,知道自己在这个中间位置里的整体信息,到了第三步的时候,我们要基于这个整体信息做一个决策,我们是不是要刹车、是不是要做一个左拐、右拐这么一个动作。
这是我们第一代的芯片发布,我们可以它的功耗只有1.5瓦,它的处理速度是30毫米以下,那么代表它一个处理的性能,它是可以完全处理一个实时的视频。
这边有一个视频跟大家分享一下。
我们可以看到,我们可以识别出来车辆、行人、交通灯。这个视频是实时处理出来的结果,并不是先拍了一个视频再处理得到一个结果。然后红色的区域不能驶入的一个区域,黄色是一个车道线了拟合结果。这里边我们区别了一个车尾和车身。
我们基于第一代的芯片,我们做了一个ADAS产品,这是一个后装的产品。这个其实包含了一个前置的摄像头,就是我们朝外看,另外还包含了一个朝里面看的摄像头用来监控,用来监视、监控司机的运行状态,他是不是闭眼睛了,是不是打瞌睡了,他是不是脸朝左侧或者右侧去看了,没有关注到前方。这里边融合了一个基本上提供了ADAS能够提供的一些常见的报警设置、报警选项,这个主要是用来用来通过一些长程物流或者一些车辆的运营公司提供一些量化的数据关系,当然也可以为保险公司提供更加详细的数据分析。
这是我们刚才讲过的,我们基于BPU2.0,我们可以做到一个像素级别,也很好去理解。这里边实时的环境不再是之前第一个视频里面表现出来的一个框,是一个像素级别的分割了。
他可以做一个多路的视频输入,满足我们的业务需求,而且它支持多个传感器的融合。 这就区别于第一代的单独一个框的形式,是一个3D的形态,而且能够给出人的一个骨骼关键点。我们通过这个东西预测出来行人后面行驶的趋势,他到底是停驶在那面,还是说朝外走,还是朝车道里面走。我们可以看到绿树、蓝天包括一些交通等,它们都可以被清晰地分割出来,这个人骑着自行车也可以识别他的身体姿态。
好的,基本上就是这样一个。另外基于我们的暂缓方案,我们前段时间在上海落地的一个产品,它叫一个自动泊车的一个系统,我们现在都市里边我们去一些地方去停车,会遇到很多的麻烦找不到车位,停下来最后又找不到车了。现在通过自动驾驶泊车的一个系统,你到了目的地把车停下来,然后发出一个指令,然后车自己会停到预先安排的一个停车位里边,等到你出来的时候,就可以把它一键照会,在任何指标的地方。
这里边还主要讲的是我们第二代的BPU,我们之前在美国的CS做一个实测,当然展示是用像素级别的语音分割。我们的目标一定是提供一个高性能、低功耗、成本的一个实现方案。地平线现在在自动驾驶的领域,已经和全球领先的供应商和一些汽车厂商建设了一个比较好的关系,他们现在有一些这样的列百,他们都是建立了一个宽泛的战略合作。
有些产品其实已经落地了,包括和华阳集团的一个产品,但是汽车的落地周期是比较长的。我们知道尤其是前装产品,但是后装产品这个倒是比较快。但是我们认为前装价值会更高一些,但是这个周期会特别长。
所以我们地平线一个目标是在2025年能够使3000万辆的车能够登上地平线的一个BPU,我们认为这个一定是带来一个深层次的社会变革和生活方式的变革。另外我再提一下,因为我们之前提到我们是有三个研究方向,有一个自动驾驶、有一个智能商业、最后还有一个智能城市。这里边我们认为能够轻易受到一个本质的变革是由货、场、人,最后转变人、货、场这么一个位置,把人的一个位置放到最前面来考虑,以前都是一个很粗糙,一个很模糊的考虑。就是以货的运输、布置、分发为优先考虑的。现在我们是以人为核心来考虑,人的需求是什么?那么我们提供的方案是基于我们芯片。
这是我们基于旭日CPU,用来在智能商业领域以及智慧城市领域来应用的一个产品。
这里边主要做什么,比如说我们现在有一个进店,我首先需要知道这个人,他的一个身份特征,他到底是一个是一个熟客还是一个新客。他这个人采购行为是什么?他对什么产品感兴趣,以前基于外在的一些到店统计,那些都是特别粗糙的。它没法做到一个人的特征身份的对比,基于我们摄像头方案的话,我们可以做到人、货、场三个方面。
第一个我们知道这个人他是谁,另外一个我们知道这个货场在什么地方摆着,第三个我们知道这个店里面的整体布置。首先第一个我们可以知道人进来了,通过相机抓拍进来,他的人脸,有一个人脸的抓拍,能够把人进来以后脸抓出来,另外一个人在这个店里面行走的时候,我们会把他一个路线轨迹记录下来,你如果在一个地方驻足的时间比较长,代表你对这个区的产品更加感兴趣,我们最终会出来一个热流体。另外在你结账或者支付的时候有一个历史记录,通过这个历史记录,我们会针对性、精确的推送一些折扣券或者一些优惠产品。
这边还有一个人走的姿态,后来的人进入以后我们就完全知道用户拿的是哪一件产品。
这是从客户进店到出店,所有的信息一个融合,给出客户一个特别精确的分析。谢谢大家。
(鼓掌)

主持人:

谢谢李总的精彩演讲,我们相信地平线自主研发的人工智能视觉芯片能够为我国自动驾驶产业带来更广阔的发展前景。再次感谢李总。
深思创芯一直在专注于人工智能神经网络芯片的设计、研发,其研发团队已经累计10年从事AI芯片硬件底层研发。他们从底层技术做起,将核心技术应用于人工智能硬件领域。目前,深思创芯团队已经成功研发了一颗人工智能神经网络平台芯片,芯片体积只有9平方毫米,内置多个核心,具有速度快、低功耗、面积小等特点,能为人工智能提供强大的底层硬件支持。下面有请深思创芯CEO俞德军先生,为我们分享AI芯片对人工智能应用拓展的底层硬件支持。有请俞总。

俞德军:

各位嘉宾大家好。我今天跟我们探讨的题目是“AI芯片对人工智能应用拓展的低层硬件支持”。
我会按照过往的精力,我个人对AI芯片的理解,会讲一些我个人的观点。
首先我们还是看一些人工智能发展的一个浪潮和发展趋势。从过去的几十年当中,人工智能它的发展路线基本上还是曲折前进,我们看到我们现在所处的是从2000年前后开始启动,在这之前已经有几波浪潮,它的特点我们能看出来,基本上通俗的讲就是一浪高过一浪,每一浪比前一浪更强。我们现在所处这个阶段的话,它主要还是得益于过去的10多、20年里边,计算机性能的大幅提高,在我们数据的大量积累、大量集成,我们现在所说的大数据。然后在我们非常关键的一点,就是我们的算法,算法的大幅的进步和突破,这几个方面的话,导致或是支持我们这一波人工智能浪潮的快速发展,并且发展时间会比较久。
人工智能的三大要素,数据、算法、算例。那我这边的话,把算例扩大一件变化成了硬件和软件,算法基于也就是软硬件这么一个基础,那我们可以看到硬件和软件所要解决的是工程领域的问题。目前的话,我们在比较多的人力、时间、精力都会在这个方面。尤其是软件,软件的话它将耗费大量的工程师,其次是算法。在AI的领域里面,基本上涌进了超过一半以上的功能都是算法和软件这两个方面,硬件这方面的话相对来讲,人比较少,硬件是所有人工智能发展的基础,它才是真正核心,我个人观点,算法是核心或者是软件是核心。原因是算法工程师太多了,说明算法工程师非常重要,软件工程师也很多,软件的工作量特点大,所以它也是核心。但是我们要知道,为什么硬件功能相对比较少,尤其在芯片这个领域。
从这张图我们可以看到,算法空前繁荣,各种算法层出不穷,它有一个特点它的更新迭代特别快,甚至有一些虚假繁荣,因为我们现在所用的算法,有很多算法是伪算法,它并不实用,但它几乎难以实用。我们基于人工智能围绕他做一些应用,我们看到的应用其实基本上都在这几方面,像比较多的自动驾、驶安防监控、智能制造,然后是金融也比较多,这几个方面的应用,围绕人工智能来展开的话。我个人觉得,当前的阶段其实还是在初级当中的初级,远远还没有达到我们的预期,尤其我们在场的话,有很多听众不是在技术行业的话,他的感受会更加强烈一点,技术背景的话他这种感觉相对弱一点。
这个的话,涉及到市场繁荣背后,我们涉及到它的本质,软件化还是硬件化,这个的话对于我们人工智能的应用产生直接的影响,我们所认为它基于的原则是基于运用需求、倒向逆推,我们最终要寻求的是算法硬件化和软件化的一个最优平衡。所以单纯地单调地去强调,软件重要、算法重要还是硬件重要,这个命题本身就不成立。
这个是我们在AI硬件平台的选择,这个人工智能算法涵盖下面硬件平台、软件平台,它是一个逻辑实现的功能,就加到硬件平台。当前比较多的,有几位嘉宾也提到,目前最多的是CPU,GPU平台,FPGA,以及ASIC平台。那我们现在讲得比较多的ASIC平台会讲得比较多。但是用的比较多基本上到目前为止只有CPU、GPU平台、以及FPGA平台,但是CPU、GPU平台和FPGA平台的话,目前基本上都是可以涵盖在泛AI这么一个领域里面,但是如果说要解决它的本质,从硬件层面有一个本质的提高的话,我个人在ASIC这部分它可用相对比较少的时间、精力和投入得到比较好的改良和优化以及提升。我们这样也例出来,三种平台他们各自的有时和不足和缺点,像成本、能效、速度以及面积、体积。
实际上在不同的应用场合,他对体积的要求还是很高,FPGA和CPU、GPU平台的话相对受一些制约。
另外就是功耗,AI的应用,它的应用领域、应用场景从功耗分类的话,分为两大类。第一类是功耗敏感的、一类是不敏感的。因为有的时候,对硬件开发的时候会用避重就轻的现象,如果我做低功耗设置,我会讲强调低功耗非常好,如果我做不了低功耗,我会告诉大家低归好没有那么重要,但是实际上,这也是一个辩证的需求,原因是低功耗的设计,本质上是来讲牺牲部分性能为代价的。软件和硬件的平衡,硬件内部又有平衡。
目前的话,能够做的芯片,它的一个发布和应用的情况,我们首先看下面。上面GPU和FPGA这两个方向在云端图段,它的实际应用应该是比较广泛,可以实际来用。但是在设备端的推断的话,我们可以看到,他细分领域比较多。但是这只要看到包括我们在内也会有一些发布,发布真的就是只是发布,应用是另一回事情。
AI芯片聚焦开发一个困境或者一个难点的话,对于非芯片研发设计背景的团队来讲,可能他很多都认识不到。因为我们在AI的芯片,通用的芯片更不用说,就是ASIC芯片的话,它的规模也会非常大。
举个例子,即便一颗不到1平方毫米的芯片,不管是模拟还是数字,还是数模混合芯片,它都可能存在难点,而且不止一个难点。然后ASIC芯片,它的面积基本上是几十平方毫米,也就是说,是一个普通小芯片的几十倍,它的难点基本上指数增加,他的难点涉及非常多的方面。平时我们讲的比较多的,可能是聚焦在它的设计方面,比如架构,我们会讲我们架构多好,我们的架构设计,我们的低功耗设计,甚至我们还会讲到我们的工艺多么先进。
工艺的选择是所有芯片开发流程的最前沿的第一步,他基本上和Idea这个步骤同步进行和评估的,原因是不同的产品不同的IC、不同的芯片,它最终是基于合适的工艺节点来进行开发,不同的芯片,它的性能需求、它的目标设计都会不一样,这个的话反映到工艺、节点的选择上,就会有一个微妙的平衡和折中在里面,这和我们芯片设计的一个六边形法则是一样的。因为我们现在包括在过去的一些发布和宣传当中,都有讲,就说是有一个奇怪的现象,比如有人讲我们的芯片,我们是用28纳米做的,如果我要超过你,我一定要说我用22纳米做的,再来一个人我必须说我用16纳米做的,否认对于不了解芯片、不了解工艺的人来讲,他不懂,他不理解背后的本质。28肯定比22要落后,22肯定比16,14,12,10甚至7纳米更落后,这完全是一个概念,或者是选择背后的理解错误。
所有的芯片设计,在工艺的选择上做个折中和平衡,它基于的原则是我们对芯片的设计目标,主要是针对参数就是电特性,然后倒退恢复选择合适的工艺,不同的工艺它会影响到芯片的性能之外,还有成本的问题,成本的问题会影响到最终应用的领域,他适用的应用以及从行业角度来讲,他的回收周期、回收率、毛利率等等各个方面。我们从Idea到发布,这是一个非常艰难的过程,但是这个艰难的过程还只是一小步,我们从发布到发售中间隔了非常多的杂质里面,每一个杂质都是一个难点。
发布到发售,发售以后我们通常会认为芯片已经成功了,但实际上也还没有,发售到落地还有。之前有讲一个,从发布到发售中间有100个研发,从发售到落地有100个技术支持。这是玩笑话,但是在我们的同行闲聊的时候,引起了共鸣,即便到最后落地,场景落地、芯片也不完全保证没有问题。因为会有这样的现象,芯片已经卖出了三年、五年甚至更久,都还有客户回过来反馈,你的芯片含有BUG,你必须解决这个问题。工艺稳定性问题这些都是坑,这些所有后面将会遇到的问题,在Idea发布的时候根本放不出来,甚至我遇到过,一个芯片卖出去已经超过五年时间,客户讲有一批次芯片,平均10万颗里面有1颗不良,所以这个芯片要解决,是什么原因?要给出一个详细的分析报告,这基本上就非常非常难。
所以基于刚刚讲的比较难的地方,困点和困境展开里讲涉及到几个方面,所有首当其冲,所有事情的基础团体和人才。芯片设计的人才或者AI芯片设计的人才,非常非常短缺,我们讲真正意义上的人才其实非常少,大多数人只能称为工程师,工程师里称为人才是金字塔顶端的一部分。如果回到AI芯片开发来讲的话,AI芯片需要大量的经验积累、设计能力,但同时是AI芯片,他基于神经网络,他还是需要熟悉神经网络是什么东西。我们现在很多人听了太多太多的神经网络,但是问他神经网络是什么东西?其实十有八九分不清楚,这也是本质,但是很多工程性的东西,很多工程师还不一定聚焦到这个问题上面去。
第二个周期成本,更新迭代。芯片开发的周期非常长,至少有一年的时间。我觉得这个非常对,芯片的硬件开发的话,一年的时间非常短了,真正的开发,小芯片来讲通常是8个月到1年,大芯片的开发1-3年不等,所以这个过程它会非常久,芯片是一次成功,芯片不是一次成功又要返回,这1-3个月的时间全部重来,全部的费用基本就没了。
他的更新迭代非常慢,成功率也没有办法百分之百保证,算法跟软件不更,或者说跟FPGA平台跟普通的方案的开发不同,这些方面的话,我可以通过软件,我在一天或者一个月之内就客观完成更新和修整。但对于信念是一年,因为加工周期MPW的话至少3个月,大芯片3-5月不等,分装也需要时间,对于我们的AI芯片来讲,大多数会用到BGA分装。通俗的讲,AI芯片通常有几百个角,300个角,500个角甚至更多,这类芯片的分装是非常漫长的,这又是时间,这个时间包括芯片生产、分装这些时间对所有的芯片设计原厂来讲,都是公平的存在,全部都是公平,大家都比不开这个问题。
第三AI的生态。我们现在讲AI的生态,目前的话,整个AI或者人工智能的应用,从应用来讲的话非常的繁荣,但是这个繁荣的背后其实多多少少有一些各自稳占的味道里面。也就是,有的人他是做算法,甚至是做纯算法,有的团结他是做纯芯片,还有的团结做纯软件,各种“纯”。不过现在也有一种趋势,从上往下做所有的事先集成,我本是集成工艺商,我也想做算法,我也同时想做硬件,我也想做软件,这是一个生态构建的过程。生态构建的过程又是一个逐步淘汰的过程。在这个过程当中,这是一个血淋淋的过程,未来的一段时间里边,可能有相当多的人工智能的领域的一些公司,会在这个过程中变成前例,这个讲得非常的形象。
这是市场定位的问题,市场定位的话会涉及到成本的话,我们会涉及到工艺的选择,分装的选择、测试成本的选择。对AI来讲的话,我们目前的AI还是偏向定制或半定制的看法。定制、板定植一个特点,全定制的意思是针对某一个产品或者某一个客户来做一个开发,半定制的话开发的基础上,我留一些灵活性。不管是定制还是半定制,它都一个风险。如果你的芯片从立下到芯片出来,这样长时间里面,在这个过程当中你的终端应用出现了变化,你的市场实现变化,消费类客户的需求出现变化,甚至是追加到AI上面来讲,算法已经更新迭代到几代以后,跟你一年之前甚至两年之前定义芯片的时候已经面目全非,那这就是它巨大的分歧。如果这这种情况,全定制的芯片我们基本上可以说白做了,半定制的芯片我们还可以挽救一下。
所以在这一个大前提条件下,我们回到最开始的图里面有讲到三个认证平台,FPGA平台是相对最具有灵活性的,所以这也是为什么很多系统经销商、软件公司他们比较倾向于、比较喜欢FPGA平台,因为FPGA平台确实灵活,周期短、见效快。
下面是一个软硬件投资的分析,从资本的角度反应这个问题。左边是投资金额分布,右边是获投企业数量分布,这个分布的话,它的数据来源是普秀网(音),这是2017年的数据。红色的两这个数据反映的是我们处理器芯片平台,也就是我们说的AI的芯片硬件平台。这个方向不管是从获得资金数量来讲,还是获得企业数量来讲都非常低。这里边的原因很多,这可能涉及到投资者的喜好,投资者的喜好、投资机构的喜好也反映了背后的难点或者困境。不管是从定义的阶段还是从设计的阶段,还是从后续的量产、分装、测定甚至应用销售以后的二次反馈基本上都有风险,周期也非常长。最后综合反映到我们人来看待这个事物,来看待这个领域的时候,我们会认为它的周期成本、门坎实在太高了。但是这个方向不管是从算法、软件、系统集成做一个对比的话,对于低层硬件的选择、开发,如果一旦成功它的收益或者变化,都是软件和算法和系统集成所不能比拟的,基本上高风险对应的是高收益。 这个的话有点突兀。突然讲到核心,AI芯片的设计核心,如何改善数据存储的困境?比较困难的地方实际上是数据和存储,这是本质。我们往往看到的表现是算例。
我们从一开始AI芯片,我们会讲算例。有人说我算例是1个T,我一定要说我要2个T,再来一个人一定会说我要4个T,否则我肯定比上前两个人,对不对?所以从应用领域、应用层的一些,终端的一些客户、终端的消费者来讲,它的逻辑非常简单、非常正确,是没有问题的,但是这个背后其实又设计到技术本质。
所以当纯粹算例的比拼已经没有办法继续走下去的时候,我不可能说,有人讲我是1T算例,我一下子我是100T、200T的算例,也不可能没辩论去说下去。所以第二个阶段出现的第二个概念叫算例公化比,我一定程度上比较认可这个指标。所有的算例公化比都有一个前提,我们讲算例,一般会有一个范围,我是0.1T还是1T还是10T。它有一个前提就是说它的频率是多少?频率不同,系统的计算效率是不同的。从物理层面解释这个原则,频率的不同会导致器件的开关损害会大幅增加,而且基本上是以线型增加的,频率越高,它的功耗就越大。 我们会看到,为什么我们的手机、我们的CPU,频率越高他就越烫,这是一个最直接的反映。所以我们离开一些前提定律,单纯讲算例公化比也不一定全面,算例公化比在一定程度上,在一段时间内还是有市场的。到第三个阶段我们又提出了第三个概念,叫做分支算例。
分值算例消费者不会买单的,消费者买单的不是分值算例,分值算例是用来干什么?分值算例是用来炫技的,是用来秀。他本质上不从应用层面来反映它的本质。如果本质上来反映这个问题的话,他会讲我们数据的去向,数据放在哪里?那我们知道AI芯片上上存储没有办法做得很大,片外存储带宽有限,所以这就是一个矛盾,我们要解决的问题只能在这个地方做文章。我们是如果从架构上来设计,解这个矛盾的话,能够做的事情也不多。从软件层面上讲,基本上只能修修改改,稍微补一下,没有办法根本性的去改变,这必须从架构上解决,架构上的话是解决数据的复用率,要提高数据的重用率,来提高运算的效率。
这个行业的生态,整个AI的生态刚刚有讲到,我们希望是各个领域、各个环节不管数据、软硬件还是算法,都要做一个协调。这是一个主流应用产品的罗列,我们看到都能看到的应用产品基本上涵盖这几个方面比较多,图像控制、安防、交通、语英文(音),这几个方面基本上是大家都能看得到的方向,但是我相信AI绝对不仅仅陷于这些方向,这些方向注意了,它只是一个主流应用。AI之所以为什么这么火,我们认为它的背后,它有太多太多还没有看法的应用产品,还只有无限的想象空间,这是最最适应我们的地方。
这是人脸识别,人脸识别是一个大的方向。它下面会细分成很多垂直的一些应用领域,我们做一个简单的罗列,其实后面还可以有很多的细分。包括身份识别、人脸刷门进,这个几个方面都可以用。
这是语音,语音的话相对突下。它的难点在于它的应用,如果从芯片角度来讲,它的芯片的技术实现比起图像到简单得多,因为它的架构不管采用CNA(音)还是INA,它的架构其实都相差不大,但是语言能做出来,相对比较简单。但是要做好,现在基本上非常非常难,这也是为什么目前为止我们在语音市场上,语音这个应用领域我们看到最多的就是音响,目前还只有音响,其他的话在智能家具也有,智能家具有我们可以定制空调、冰箱、洗衣机、微波炉还有抽油烟机,抽油烟机的话有一个不是很好的消化。就是我控制油烟机让它开,开了它就关不掉,因为风扇打开了,风扇打开它有噪音,噪音之后它就关不掉,它就听不到了。所以这就设计一个识别率的问题,处理精细的问题。所以要做好确实很难,而且这里边会有一些伪需求,伪应用需求。像刚刚举的抽油烟机的应用,我们炒菜的时候基本上就站在油烟机下面,一定要对着油烟机喊一声让他关、让他开吗?点一下节可以,如果你喊了几遍它都关不掉,吃饭可能都没心情。
这是智能交通,智能交通的话这是比较好的一个方向,因为它是具有实际的应用,举个例子,就是在红绿灯拥堵的时候,它可以解决我们现在拥堵的时候,往往是通过现场交警跑过去指挥、疏导,这个的话它涉及到一个综合决策,我可以自动检测和判断,最后决策整个街区的情况,来控制拥堵路况的红绿灯的动态调配,这是一个比较好的应用。
最后一个是智能安检,智能安检的话,它的本质其实还是图像。智能安检的本质仍然是图像,智能安检它有特殊的点,它的图像和数据来源是X光机,这种数据的话,对大多数公司来讲,它是拿不到的,因为我们机场、火车站、地铁等等这些地方的数据集,我们普通公司几乎是拿不到,这有一个门槛。
第二个军用,军用的话相对比较敏感,整个话题比较紧张一点。这是作为一个例子,在军用里面的一个应用,因为有军方的一些客户,跟我们交流,现在的导弹里面用到的FPGA,做末端的一个识别和增强。但是我们知道导弹头它的空间有限,FPGA的功耗非常大,怎么办?有限的密闭的空间里面,发热非常严重。因为不管是芯片还是系统它都有一个现象,叫过热保护。我们的芯片半导体材料,在220度以上基本上就开始失效,在180-200度的时候,一些变特性的参数就已经开始出现偏差,如果这种情况怎么办?我在导弹命中最终目标之前的三分钟时间里面,我不要过热就可以了,熬过这三分钟就可以,所以这个的话是一个巨大的问题,过热的问题以及体积的问题,不同的导弹留给它的空间非常有限,但用ASIC芯片,它的功耗有大幅的向下。
今天跟大家探讨这么多,谢谢。
(鼓掌)

主持人:

谢谢俞总的精彩演讲。非常赞同俞总的观点:硬件基础决定AI芯片的发展高度,我们相信深思创新在AI芯片硬件领域的深耕细作能够为其带来更广阔的发展空间。
人工智能与医疗的结合,也是目前人工智能发展的重要方向之一。然而已有的智慧医疗方案仍存在很多问题:如AI算法短板,专业医疗影像算力不足等。针对目前智慧医疗的痛点,深思考人工智能推出了全球首个医疗影像专用AI处理器—M-DPU,其在100秒之内能够智能分类90000个细胞,在医疗影像领域体现出明显的性能优势。
下面让先简单的观看一个介绍深思考AI芯片的一个视频。
下面有请深思考人工智能CEO兼首席架构师杨志明先生为我们解读AI专用芯片在智慧医疗的应用。

杨志明:

大家各位上午好,非常荣幸我给大家分享一下深思考人工智能,我们的AI专用芯片。主要布局在智慧医疗这个领域的专用芯片,叫M-DPU。刚才是一个非常简短的视频,采集我们实际的应用场景,我们是专门针对医疗影像的AI识别、分类,这个场景研发全球首款的M-DPU,今天我分享的主题是“AI专用芯片开启智慧医疗大门的钥匙”。
大家都知道,现在整个AI里边一个很大的领域就是智慧医疗,全世界范围内也都是比较火热的领域,现在很多很多的AI公司的,厂商都布局在智慧医疗这个领域,其中很大的一个分享都是医疗影像的识别、分类、目标检测等等。
从全球范围内来看,现在目前AI医疗、影像落地情况其实还不容乐观,我们可以看到很多很多大的厂商在逐渐落地。但是呢,我们感到这个门槛还没有开启,整个市场还没有爆发,大家都在做布局。那么怎么去开启智慧医疗的大门?我们认为就是说针对医疗影像的专用场景,用专用芯片加专发的一站式的解决方案,可能是开启智慧医疗大门的钥匙。
这是一个很简单的图表。那么其实我们每年中国国内的两癌,尤其死亡前十位的癌症,这个数字非常触目惊心。现在有AI的厂商已经在做布局,我们刚刚说的,由于现在做视网膜病界的诊断,做肺结核诊断、胸部CT的、甲状腺等等等等,有一些的友商都在做了相关应用的算法。我们可以看一下,整个我们国内医疗的现状,大家或多或少有一些体会。其实最主要的是我们的中国幅员辽阔,看病贵、看病难,然后医患关系非常紧张,导致这个根源是什么?其实医疗资源是一个稀缺资源,在中国广大地区分布是不均衡的。
而且很多病友的医生收入非常低,工作量过大。这是一个简单拼装图,就说明我们中国在国内在东部、中部、西部医疗资源分布极度不平衡。
这是一个简单的表,可以看到,我们在城市和农村医院的卫生技术人员,包括职业的医师、护士包括临床的资源,其实也是非常非常不平衡。
我们刚刚说了,很多的AI友商都在布局医疗大健康、人工智能这块,目前整个AIE产品落地上有一个现象,就是落地非常难,而且落地的时候成本非常高,为什么?因为从国内考察过来看,基本上用一套GPU的两个服务系或者一个集群,然后再训练一套转化模型,运行的时候要么一个大的服务系,加上临床的应用。要不是采用云端,我们都知道,其实要跑一些大量的合算的模型,如果往往我们用大的网络模型去跑的时候,它需要计算资源非常多、非常高,我们如果买一些通用的AI芯片的话,其实是成本就非常高,动辄几十万,有一点上百万。其实在我们AI友商在去做落地的时候,我现在还没赚到钱,很多的友商还没有真正从医疗机构或者医院真正去盈利。大家甚至于补贴买大量的数据,借着这个应用最后是很多AI的友商还在用通用的GPU,去提供运算的算例。不光是运营成本高,还有很多的场景其实是难以适应的。
比如说我们很多的成像的检测目标最后结果的识别,如果是数据量非常大的时候,那么实时性就不够,我们可能要传到云端去,通过GPU计算。那么还有另外一个方面就是整个数据的安全性得不到保护,还有医护场景下,很多的医疗机构和医院,是不允许上云的,他们不允许把患者的医疗影像泄露到云端去。
这是一个实际应用场景里面客户强制性的要求。包括现在还有一个现象,我们调研了,在医疗机构,很多的医疗器械的厂商,其实竞争越来越激烈,往往国外有一个医疗器械,那国内其实很多商家,最后拼加起来是什么?就是大家都在拼价格,很多打着血喊了。咱也没有改观,还有现状就是说,我们刚刚发现了有几个不平衡,医疗资源的不平衡,然后就是医疗器械厂商的医疗机械落地推广时候,整个竞争过于激烈、不均衡,没有通过AI技术去给他们做增值服务。另外我们AI的友商做医疗影像、医疗人工智能这个大领域的友商落地比较困难,主要我们觉得里边重要的一块,没有专门针对医疗影像专发的加速,我们只有采用通用的人工智能芯片,比如说GPU等等,成本很高、体积太大。
在现实的场景下,计算的实时性不理想,它就导致了我们很多在专用的识别,比如说宫颈癌、乳腺癌、两癌等等其实智能不多。另外,还有我刚刚说的一个重大的问题就是数据隐私和安全性问题,还有很多专家分享的功耗大的问题,在结合上面种种,我感觉是几方面造成一种不平衡,这种不平衡没有很好调节这个载体。
那么我们搞人工智能提出的独有解决方面就是说,依托与我们M-DPU作为一个落地的载体,作为解决AI影像的算例部分。我们会把我们医疗影像专用的专发做提成,并且做专门性、定制性的优化,最后我们会把AI的医疗机械当中非常容易集成我们的M-DPU。可以一起解决的问题就是说,医疗器械很多场景下,在现实实时获得影像,实时做AI的运算和判读。另外我们先从整个细分领域,我们AI的“两癌”“三查”的切入,我们自己团体做了AI“两癌”“三查”的算法,先树立起一个样板。
刚刚我们放的影像里边,其实我们现在目前已经在布局一些显微镜,包括医疗机械。同时,我们真真正正在医疗场景下实际产生了应用,目前也在持续产生收入。我们目前宫颈癌筛查在第三方检测机构已经占了非常大的比重,而且实际给我们的用户起到了实际的AI的能力,已经体现出来了。
这也是印证我们刚才调研,包括思考的路。
所以很简单,我们的方案是说,首先自己先树立榜样,那么另外我们接下来会依照医疗影像的专用场景去提供一站形解决方案,我们会维护我们上下人的友商,包括医疗机械厂商提供一站式服务。也就是说,你原来做了医疗影像识别的算法,你原来是用通用的GPU的解决方案,那么你原来是功耗大、体积大、成本高,难以落地。那现在你其实可以用我们的M-DPU去运行,可以运行得更快,运行更优、功耗更低,然后更加容易集成。我们还会帮AI的友商的算法厂家去集成下游的医疗机械厂家,包括我们会把他们推向智慧医院、智慧病例科、地方检测机构,那么通过这个方案很好解决了我前面讲的几个不平衡的问题,大家可以直接地看到,昨天是我们经常用的,包括我们公司在前期的时候也用了,就是一些通用AI芯片的“母体”集群,我们为了追求高性能,为了在云端去做非常好的运算,分类式目标识别检测等等,为了做到非常高的敏感性、特异性,其实我们用了大量的局就默契(音)。
我们针对产品,我们目前跟一些医疗机械厂商在合作,那么它其实整个指定在90毫米。那么90毫米的一个小小的芯片就可以把我们“两癌”“三查”的算法,把我们固定筛查的算法就很容易在我们终端运行起来。我们这种方案的特色优势是在哪里?第一个就是我们注意到在AI医疗影像里边的一些独特特点,一些痛点。比如说AI医疗影像里边大量存在堆叠细胞的情况。比如我们在做宫颈癌筛查的时候,国内的一些厂商,他通过自己的染色试剂染色出来的细胞堆叠情况是非常严重的。其实有的时候用人眼看就很困难,更何况是用机器去。
那么我们针对细胞的影像堆叠或者复杂的影像这种堆叠、分割的这种特点,这是第一个痛点。
第二个在医疗影像里边,包括手术机器人里边,关键组织的精准定位非常重要,比如手动机器人如果用AI识别算法的话,你器官的边缘包括组织的边缘,一旦有分毫的差别,可能造成致命性的事故。现在目前很多手术机器人都是人眼,人在具体一点点的操作。
另外比如说一些护理的设备,比如我们在某一个场景下去扶老人一把,如果你把关键人体的特别、特殊的部位、特征识别不准确的话,你机械的手臂就插到老人的肋骨了,可能把老人就弄伤了。其实这是医疗影像里边非常大的痛点,我们在医疗领域深度学习算法我们做一个了一个加速,比如我们可以做AI影像的友商可以非常深刻的体会到。
比如我们做一些目标检测的时候,比如SSB算法,我们基于像素级的目标分割的算法,常用FCA的算法,比如说我们做一些要求非常准确的细胞、包括影像分类的算法的时候,用非常复杂的模型,这些算法模型越来越复杂,运算越来越大,要求算例越来越大。这都是医疗影像、医疗这个特殊场景下经过遇到的困难和痛点。我们可以看到,刚才我说的,这是来自于实际的检测机构的样片,经过我们的算法做分类以后,分割以后可以看看,算法可以像人脑一样去脑部堆叠的情况。总右侧细胞堆叠情况非常严重,细胞如果是这么严重去堆叠的话,就像我们人脸识别一样,如果几张脸叠在一块,其实基本没法做人脸的识别,同样的道理,在医疗场景下,细胞是分割其实更佳。你要想做病例细胞的一些分类,那么不可避免会遇到分割的情况。另外就是说我们细胞的数量非常非常多,病例细胞非常非常多,堆叠在一块,用人眼都是非常费劲的。目前我们用我们M-DPU的方案,我们把算法和芯片集成一体的话,去运算出来,我们可以在100秒之内分类90000个细胞。我们在宫颈癌线下这块,对于现象上皮细胞敏感性达到了98.4%。医疗里边经常不用准确性,用敏感性去记,其实这个敏感性背后是什么?其实是一个个鲜货的生命,医疗领域它非常特别,不像我们一般的人脸识别,做一些物体识别,它对敏感性要求非常非常高。
其实我刚刚说,前面的场景有很多不足,采用了我们的方案以后做智慧医疗这个方案以后,特色优势在哪里?第一我们可以做实时的运算,可以在中端边缘就可以运行我们的AI的算法。第二个是我们可以加速堆叠细胞影像的分割。第三我们可以针对深度学习去做一个专用的加速。第四我们提供本地端的数据的加密,词库代词的算法去做本地数据的加密。其实医疗影像的安全性要求非常高,所以我们做了这一套,另外我们可以直观看到,这个非常小,体积非常过,它更低的功耗。相比通用的M-DPU,通用的AI芯片成本会更低,这是我们M-DPU一些参数。
其实我们M-DPU背后的原理是基于深度学习的一些压缩的算法,我们经过测试以后,我们能够把压缩90%敏感性、准确性,损失不低于3%,这是一些实际的场景,包括我们现在目前所做的一些场景。第一块是我们中国的,包括全世界很大地区用的显微镜,其实为什么我们会在显微镜这个端去发力,因为很多的医生包括医疗机构,他们对显微镜其实有一种使用上的依赖和习惯,习惯的力量是非常大的,另外显微镜很多是性价比非常高,也给广泛的医疗机构、卫生机构也能用得起,很多病理的医生其实显微镜用得比较习惯,一辈子在用显微镜。第二我们更化的显象设备,比如自动化的显象设备。第三我们有一些病理的扫描仪,电子扫描仪成像设备。第四我们有一些护理的机器人,医疗机械等等,这是我们目前已经开始在落地的一些方向。
这张图是直观、简单去描述我们一站式的解决方案,我们整个AI数据其实是我们自己一些,包括我们的友商其实是已经在这个场景下去累计大量的数据,另外使用在M-DPU可以积累更大、更多的数据。我们M-DPU的算例,包括它独特场景下的优化和加速,它可以更容易集成到一些成像设备、医疗机械、显微镜模组等等。我们认为就是说,研究整个中国相应化进程的时候,其实中国人有的时候不会为API或者某一个软件去买单的,很多客户希望是我一站式解决方案,我希望很多医疗器械厂商也是,他们本身不具备AI的研发能力,他们希望就是说,我原来成像,你最后你帮我去做判图,你帮我去增加AI的能力,我不知道如果你提供算法,我不知道怎么去运行起来,我不知道怎么用,这是目前实时机器存在的一些情况,也是一些造成AI几个不平衡,AI落地的难点,我们通过一站式解决方案,很好地解决这几个不平衡问题,很好地解决了AI的智慧医疗领域的落地。
另外我们也在布局下一代的M-DPU,我们下一代的M-DPU会把语意理解里的常见的,刚才那位老师说语音轻便,其实语音后面更多的是语音理解这块,也是大家比较容易忽略的。比如说国内的一些友商都在做很多语音的芯片、语音的识别,本地的语音芯片,其实在一些实时场景下,包括我说的医疗场景下,包括实时条件要求高,语意理解的芯片其实这是一个非常大的空白。空白的原因主要是说有一些厂商其实在语意理解没有很深的理解,我们深思考人工智能其实是兼具了这两项,不能在视觉和语意这块都具有很深厚的技术积累和技术优势,我们其实现在在做一项计划,我们学习了全国领头的一些专家,我们用语意识别的算法,用我们的AI去学习他们的语料,我们会提供专用场景下的,比如说慢性病的咨询,这也是我们下一步去做的,我们认为在终端也可以做全站式的,除了视觉以外,还可以做一些健康咨询,这样就可以很好落地到医疗机构、医院包括智慧家庭。
我说一些我们的愿景,我们的愿景其实目前现在第一步是我们为第三方检测机构包括医疗器械,当中去嵌入一些我们的,形象来讲是AI大脑芯片,我们的M-DPU。
下一步我们会布局、加强健康管理,我们已经跟一些国内的大的熟悉厂厂商展开了广泛的合作,使得他们智慧终端里边可以集成我们的M-DPU。 今天简单介绍一下我们的公司,深思考人工智能,,其实我们来自于中科院软件所一直在做AI的原来的科研人员,我们之前在做AI之前就做了将近10多年,我们同时兼具备人际交互自然语言理解和计算机视觉两项人工智能技术,我们这两项核心技术其实已经在国际国内获得的多项大奖。一句话来讲,我们现在致力于提供终端人工智能解决方案,尤其为各种终端设备按上人工智能大脑,我们目前布局在智慧医疗这个领域。
谢谢大家。
(鼓掌)

主持人:

谢谢杨博士的精彩演讲。智慧医疗还处于行业成长期。可以预见深思考研发的医疗专用AI芯片能够推动传统医疗行业的变革与发展。再次感谢杨博士。
今天上午的人工智能论坛就到这里,再次感谢各位演讲嘉宾的精彩分享,谢谢大家。大家可以在会后继续交流分享,谢谢大家参与人工智能论坛,期待下次再见。
——结束——

    主办单位:

  • 中国半导体行业协会
  • 中国电子信息产业发展研究院
  • 南京市江北新区管理委员会
  • 南京市经济和信息化委员会

承办单位:

  • 赛迪顾问股份有限公司
  • 南京软件园

协办单位:

  • 工业和信息化部软件与集成电路促进中心
  • 赛迪智库集成电路研究所
  • 中国半导体行业协会MEMS分会
  • 江苏省半导体行业协会
  • 南京集成电路产业服务中心
  • IC咖啡

支持媒体:

  • 满天星
  • 中国计算机报
  • 中国电子报
  • 通信产业报
  • 电子产品世界
  • 中国集成电路
  • 半导体技术
  • EDN China
  • 赛迪网
  • 中电网

世界互联网大会官方微信