互联网+ 电子商务 智能家居 地理信息 智能制造 信息安全 3D打印 工业4.0 人工智能 光伏 新能源汽车 消费品 集成电路 移动支付 汽车 数据中心
2019世界半导体大会暨第十七届中国半导体市场年会
当前位置:首页 > 产业动态 > 战新 > 生物医药 > 正文

华东师范大学教授杨光:关于医学影像人工智能落地难的几点思考

发布时间: 2019-01-07 10:46     来源: 满天星

  2019年1月7日,新兴产业百人会年会——张江•2019未来产业峰会在上海市浦东新区博雅酒店隆重举行。峰会以“变革创新 拥抱未来”为主题。华东师范大学教授杨光为大会发表了主题演讲。
  以下为演讲实录:
华东师范大学教授 杨光
  尊敬的各位领导,各位同事,很荣幸今天有这个机会来跟大家分享一下我们的工作和一些关于人工智能落地方面的思考。
  我自己去做演讲的时候,一般都会跟大家说,我们是人工智能这个领域的新兵,为什么这样子说呢?我们是上海市磁共振重点实验室,很多年以来一直是做磁共振研发的,主要是配合一些企业来去做磁共振的系统,我自己主要是做一些软件。
  在软件的过程当中,如果遇到一些算法的话,我们也需要在实验室预先做一些研究。比如说感知技术,我们也在实验室做了研究,并且最终也实现了,用更短的时间去完成同样质量的扫描,对于静态的扫描可能需要用30%或者50%左右的时间就可以得到同样质量的图像。对于这种的图像用十分之一的时间就可以达到同样的效果。
  我们也会配合医院去做一些项目,比如说做血管分割和追踪的工作,做静脉和动脉的分离,或者是做脑部合成的自动分割,这些方法其实都是用传统的数学算法,针对不同的应用会去设定不同的算法,可能一个研究出来做完一个方面的工作之后就毕业了。
  所有这一切在16年就发生了变化,这就是刚刚邓教授所说的,这个确实是影响了很多方面,我们都知道人工智能这个东西肯定会流行起来,所以从16年的3月份,就开始部署学生用人工智能的方法去把以前研究过的问题重新做一些尝试,当然现在这两年人工智能已经迅速热起来了,包括自动驾驶,包括大家手头上的一些软件和板块都是用到了神经网络深度学习最基本的工具。
  而作为计算机视觉的一个直接的应用,就是在医学影像当中,人工智能也是很快热起来了,今年我们关心的有一个医学磁共振大会,这样的六七千人的会议,大概是一周左右的时间,几百人的会场,只有出一个人才能进一个人,所以火爆起来了。
  我们自己去使用这样的一个人工智能的工具,第一个体会是什么呢?就是它的工具非常简单,这是我们学生刚刚开始学习人工智能的时候做的一个认识,数据是网上公开的数据,这个效果其实已经超过了很多传统的算法。
  这个是我们第一次用深度学习的方法去帮助医院里的医生做一些前列腺的分割,这个效果就相当于我们讲的,考虑到前列腺的结构比较复杂,还是蛮难做出这样的效果的。上的这部分是我们去评估肝脏影像的质量去评估的一个比较粗糙的分割,我们再以这个网络为基础,再用红外线的网络去做CT肝脏的分割,这是比较精密的分割。
  这些工作放到以前都要有不同的人用不同的方法去连接,而在现在其实基本上是基于同一个网,这张图的意思就是说AI可以用我们简单的工具去完成原来看起来非常复杂的工具,这当然使得我们的工程技术研究有了非常强有力的工具。
  这个AI最重要的就是所谓的深度学习,深度学习最简单的理解是什么样子的?就是你构建一个网络,这个网络你把数据以及你期望的数据,对应的结果输入进去,对这个网络进行训练,训练好了之后,你只要再把新的数据输入到里面,结果就会自动出来,这个的过程当中不需要任何的人工干预,学习的意思就是说你要给他一个预期数,是有结果的数值。所谓的深度意思就是要成熟很多,所以这是非常简单的。
  有了这么一个工具之后,我们就开始和医院做了一些合作,因为工程最终还是要在医院中进行,才能真的获得价值。一个典型的应用就是做了一个前列腺的工作,首先我们只是希望能够自己把自己的应用做到真正对医院有用,所以设计了一个思路是针对整个前列腺的问题,做一个全面的了解。从一开始的腺体分割到癌灶识别到良好恶性鉴别到最后的风险评估,整个过程都用这个应用来做。
  这个过程当中会使用到不同的东西,但是一旦做好了之后就会得到很好的应用,这个工作是在江苏省人民医院的配合下完成的。第一个分割大家也看到了这个结果,其实结果非常简单,结果也非常好。
  第二个就是所谓的前列腺癌症的分类,简单来说可以看右边的图,基于人工智能的结果,就是这根蓝色的线和基于临床上平衡标准,它所做的这些风险预测的结果效率是相当的,如果把CN和医生的判断结合起来的话,那么就会优于单独使用的方法,就可以达到我们的效率。
  下一步就去做自动检测,这是最初的结果,大家看到这三个图像中间的红色区域是医生手动标出的癌灶区域,右下角的区域是我们预测的部分,就是有症灶的地方可能性比较高。所以如果在右下角这张图里面,如果红圈里面亮了就说明我们的预测比较准确,如果红圈外面亮了就说明我们预测到了假的阳性。
  做了这样的初步结果,医生觉得还是比较满意的,然后我们就实现了一个软件,把这样的软件部署在医院里面给医生去试用,医生每次拿到东西以后,就会使用我们的软件做一些分析,过了一段时间以后他就分析了一些样本,这些样本我也不是很懂,医生说这是比较容易诊断的,这个是比较难以诊断的,这个整个难度也是比较大的。
  在很多种情况,我们训练这样的神经网络都能够给出满意的结果,既然这样的话,医生就觉得可能我们的方案确实有一定的价值,我们就从两个方面加强了工作的改进。第一个方面是医生帮我们去艘进更多的数据,所谓数据驱动的过程,我们也对我们的模型进行了改进,使得我们这个模型能够更加准确,这个就是近期的结果。如果大家仔细去看这个图的话你会发现,这个结果在在双方努力下结果会更好。
  我们都知道有一个PI-ADS的评分,我们就去模仿它,左下角是我们的结果跟医生评分结果一致的图,大部分的情况下,评分都是比较一致的,虽然只是一个大致的结果,但我们在风险评估上还是有比较大的潜能。
  后面的效果预测还没有开始做,但是整个这个过程做下来,深度学习的数据规模其实并不像我们想象的需要这么大,我们应用的病例是一百多例,深度学习都更多的取得了比较好的效果。因为有了这样的一个结果之后,我们就希望把我们这样的一个应用推广到各种的应用场景,所以跟不少医院快速进行合作。
  西门子最近做了一个项目也把我们作为其中的一个发起人,来支持这个方面的合作。其实在一年多的跟医院合作过程当中,我们做的越多,其实反而对于深度学习在医学影像上的落地,信心就没有一开始那么足了,一开始想这么有利的工具是不是可以很快替代医生?实现垄断?
  但是做了一段时间以后自信心反而下降了,为什么呢?我们想要做一个完整的模型,做了一年多的时间还是没有完全做好,还需要做进一步的工作还有就是算法的鲁棒性,如果把所有的结果加起来,测试效果是怎么样的还有待检验。
  还有就是你即使做了这么多的融合,前列腺本身也不只这么一点疾病,那么不同的疾病怎么样进行覆盖呢?还有就是我们去跟很多医院去做合作的时候,医院对于深度学习的接受还不如传统的自主学习,为什么呢?是因为深度学习这个东西不太好解释,医生如果拿这个结果去写论文的话他们会发现不知道怎么写讨论,这个当然就不是那么开心。
  当然还有所谓的非技术的问题,包括知识产权、数据所有权、用户隐私和产品的认证,如果实际落地的时候诊断的责任是归谁?还有可持续发展需要有收入上的保证,还有医保的配套措施,或者说AI正在在医学影像领域里面,它的盈利模式到底应该是怎么样的。
  更重要的是,上面很多问题是耦合在一起的,因为时间的关系,今天我们就看其中一两个问题。第一个问题就是数据的问题,数据大家都知道它是非常重要的,如果我们希望实现一个部位全流程人工智能的覆盖,那我们就需要全流程的数据,有些数据是非常难以获取的,比如说关于愈后评估的数据,这个是很难获取的。
  第二个要实现算法的鲁棒性,那你就需要更大的数据,数据要更有多样性和代表性,如果要从各个医院去搜集不同的数据,那首先第一个是精确度的问题,还有就是如果大家要写论文的话,论文的署名归谁?有很多的问题需要讲。如果你要做一个器官多功能的覆盖都需要相关病理的数据,产品的认证,CFA可能会通过一个AI产品的认证标准,但是这样的标准背后还需要海外的题库数据,如果大家准备好了题可能就会通过认证,但无论怎么样,数据都会发挥着非常关键的角色。
  数据的困难有很多,第一个很多影像模态的数据量是不多的,很多病种病例数又不大,比如说一些罕见的病种,对于很多罕见病种的研究也是很大的瓶颈。还有就是数据采集的标准与质量不统一,我们去会发现大家对于图像的质量和要求是不一致的,有一些医院比较大的,这些医院的质量性比较好,那我们去看那些质量性不好的医院适应性就很差,这个方面也有很多的工作要做。
  最关键的一点,我们所要的数据不是医院的数据,而是经过了医生标注后的数据,但是这个标注的过程费时费力。关于数据的分享来说,目前还是西方做得更好一些,很多人整理了关于医学影像开放数据级的清单,你会发现他们列举了很多针对不同方面的医学开放数据级。
  比较有名的就是这个网站,上面汇聚了很多的医学影像,像这个ADNI是做影像收集的,它开放的数据收集和采集的标准,一代一代去更新自己数据采集的质量规范和建议,收集的数据向全社会公开。
  我自己在阅读杂志和做审稿的时候,经常会看到引用这两个数据级的文章,说明这些公开的数据级无论是对于学术者人也好,还对于产品人也好,其实都做出了很大的贡献。
  还有一个模式就是挑战赛,在影像里面,大家可以针对一些特定的难点问题,使用统一的公开数据去进行所谓的挑战赛,就看一看相关的科学家们谁能够最好地去解决这样的问题,这样的挑战赛对于整个行业的发展是非常有帮助的。前面我们提到了那个分割也是因为在分割挑战赛里面,前10名里面有8名,当然就是他赞成的。国内的赞成很少,更多是关于商业上的,所以希望行业上能够见到更多国内基于公开数据做一些医学影像方面的挑战。
  所有这些希望公开数据,如果你依赖于企业或者是医院的话,那就是不太现实的,因为企业和医院都有各自的开销和自己的利,所以这个方面政府应该通过项目组织,有针对性地进行数据收集和标记。据我所知这个方面的工作其实一直也都在开展。
  但是我听到了各种说话的人,好像大家对于数据隐私的保护更加重视一些,包括去年欧盟的数据保护出来了以后,相信很多国家也会相继出来更多的法规。但是共享方面不应该过多强调,因为单独把数据锁在保险箱里面,数据的价值是体现不出来的,如果政府能够组织对数据进行标识,并且向社会公开的话会促进人工智能的发展。
  从医院角度来说,应该定期制定符合临床要求的数据采集、标记规范与标准,这些标记是随着我们对问题的人世和理解不断深化来进行不断更新的,尽量要保证数据与标记质量的一致性。算法研究角度,增加算法鲁棒性,公司要更多共享数据、算法和平台。那如何在其中保持平衡,需要公司自己去衡量。
  其实在共享最多的前10家机构大部分都是来自于美国,我们国家还是共享数据不久的。这个是深度学习谷歌层面的共享,深度学习最常用的Python所有的东西都是开源的,我们国内很多东西都是基于这个获得了很大的收入,如果离开这些东西,很多人工智能的公司都完不成工作。
  最后再补充一下,落地真的困难吗?我们理解落地难是要实现全行业腐败落地的困难,通过渐进的方式去落地并不困难。对于算法研究机构和医院来说,对单一兵种的全流程进行研究,充分发挥人工智能在专科中的应用影像工作站也可以利用人工智能优化用户交互,渐进式地提供更多疾病计算机辅助诊断功能。对于设备来说,利用人工智能在采集阶段对图像质量进行控制,这个可以从研究上去找人工智能所需要的数据。
  而真正AI能够做到医学影像全覆盖的话,则需要我们在整个的应用价值上做更多的思考,因为时间的关系我就不再探讨这个问题了。
  总结一下,深度学习的人工智能是医学影像领域中最有力的工具。它的落地是需要政府、机构、医院和企业各方面的共同努力,数据是近况,但是数据的共享和数据的隐私保护同样重要人工智能在医学影像的落地,可以结合具体设备、应用渐进式地进行。最后人工智能的全面落地需要行业本身在整体架构与平台上做更多的思考。
  最后要感谢我的小伙伴们,感谢跟我们合作的医院和公司,谢谢大家!

 

收藏