互联网+ 电子商务 智能家居 地理信息 智能制造 信息安全 3D打印 工业4.0 人工智能 光伏 新能源汽车 消费品 集成电路 移动支付 汽车 数据中心
2019中国IT市场年会
当前位置:首页 > 产业动态 > 战新 > 生物医药 > 正文

Illumina中国公司信息学产品部总监唐顺江:人工智能与基因检测

发布时间: 2019-01-07 10:46     来源: 满天星

  2019年1月7日,新兴产业百人会年会——张江•2019未来产业峰会在上海市浦东新区博雅酒店隆重举行。峰会以“变革创新 拥抱未来”为主题。Illumina中国公司信息学产品部总监唐顺江为大会发表了主题演讲。
  以下为演讲实录:
Illumina中国公司信息学产品部总监 唐顺江
  各位领导,各位来宾,大家好!我是Illumina中国公司信息学产品部总监唐顺江,今天非常荣幸能够在这里给大家介绍一下基因测序行业和人工智能之间碰撞的火花。
  首先我再这里做一个小小的科普,什么是基因组学?什么是基因?我们知道,在我们的人类身体里,每个人都有23对染色体,染色体是我们整个人类导致我们所有遗传病关键的一个生物物质,它存在于细胞核中。
  染色体由什么构成呢?是由DNA和蛋白质构成的,DNA中包含有人类遗传信息密码的那一个区域,我们把它称之为基因,所以基因导致了我们每个人细胞的更新换代,也决定了为什么我们每个人都长得不一样。
  在基因里面有重要的一个化学结构,它称之为碱基,每个DNA里面都包含4对碱基,基因测序就是注重于碱基序列的一个重要的科技。我们研究人类碱基的排布来确定一些重大性的遗传性问题,以及疾病方面的问题。当然,基因非常重要,那我们为什么要研究基因?基因实际上是决定了我们人类的一个重大疾病治疗的关键生物信息。
  那我们基因测序的原理是什么?首先基因测序刚才说过了,是为了针对我们的碱基进行一个分析,这些碱基存在于DNA中,我们的测序仪作为整个基因测序环节中的重要设备,就是要将我们的DNA打碎为无数个细小的碎片,经过整合以后为相应的碱基配上不同的荧光信号,比如说A对应的是蓝光信号,B对应的是红光信号,这样就可以把碱基生物学的信息生成数字信息。
  一旦生成了数字信息之后,我们的测序仪将会把我们相应样本中的碱基排布和人类标准的基因组进行一个对比,对比出来以后,得出的一个结论就将来给我们的医务工作者、科研工作者一个依据,也就是说我们相应的样本和人类标准的样本相比有哪些不一样,而这些不一样在我们的医学和基因学中把它称为变异。
  我们知道,变异实际上分两种变异,一种是良性的变异,良性的变异是指什么?也就是说我们每天的人生命的细胞在更新换代,有可能今天产生的细胞跟昨天的细胞不一样,这个就是为什么我们的人随着岁月的变化,人的面容或者是体积会有一些变化,这些变化很大程度上是由我们的基因决定的。为什么我的头发这么少?可能就是我的某个基因里面造成了我头发少的原因。为什么新一代青少年的偶像在电视上都长的这么娘?可能某种程度上也是基因的原因。
  刚刚我所说的基因测序原理来看一下基因测序的示意图。我们的测序仪就是将包含人类密码的一本书就是DNA,经过像碎纸机一样的过程打碎了之后,再经过拼接,拼接完成了之后,和我们人类标准的一个基因序列进行一个对比,最终得出什么结果呢?得出在屏幕右下方基因的一个变异的信息。
  基因应用的领域有哪些?实际上,从我们的医疗行业来说,基因的应用实际上伴随着人的整个生命周期都有不同的应用,我举个例子,比如说我们孕前的携带者筛查,这个在我国医学上是有重大的意义,为什么说?
  实际上我们国家是一个遗传罕见病的多发国,我举一个例子,在我们的南方地区有一个比较流行的遗传疾病叫做地中海性贫血,这个在南方的省份里面有接近几乎10%的人口都携带这种遗传性的极性,如果我们都含有这些疾病基因的父母双方,如果怀上了相应小孩的话,他们的小孩携带有这种或者说发生这种疾病的概率会非常之高,当然有可能是不发生,就是不隐性的遗传。
  针对基因的携带者筛查就变得非常重要,这对我们整个国家优生优育是具有非常重大的意义的。还包括我们现在的育龄的夫妇年龄越来越高,实际上对于出生婴儿缺陷的概率也会越来越大,所以在胚胎的时间进行一个测序也会变得非常重要。
  还包括现在实际上在我们医疗领域,已经应用非常广泛的产前诊断,包括以前我们说的早筛,现在几乎可以利用基因的技术做到无创的产前检测,大大提了优生优育的比例。随着生命的诞生,可能一生中都有若干次会遇到基因检测的一个情况。
  包括我们现在实际上行业里面比较流行的一些,比如说是健康型基因的检测,网上都有,它可以通过您的一罐唾液,能够进行一个基本的检测,能够告诉你,您可能在您的细胞中会有哪些遗传性已知的突破,包括您是不是能喝酒,您的运动基因怎么样等等,这些实际上都是在背后的基因测序,在提供的一个技术的支持。
  到了人的一个晚年阶段或者说中晚年阶段,实际上癌症会成为一个比较重大的生命威胁,因为我们知道癌症实际上是一个老年病,随着我们人的一个年龄不断增长,实际上细胞的突变会变得非常之快,我刚刚所说的良性突变会被更多不良的突变或者是恶性的突变而主导。
  恶性突变实际上是导致我们现阶段大多数肿瘤的一个根本的原因,所以以这些都是我们目前在医疗行业围绕我们人的个体基因测序所应用的领域。在这里稍微介绍一下我们公司,我们公司的名称叫做Illumina,世界上几乎接近90%基因测序的数据是由我们公司的测序仪产生的,分布于全球诸多广大的科研急救,利用我们的测序仪产生的数据,发表在权威杂志上的文章数有超过10万多篇,我们的测序仪几乎涵盖了所有的测序领域。
  刚才看到人的一个生命图里面,实际上围绕的就是在这个所有的基因测序涵盖领域中的生殖健康,肿瘤学等等,当然基因测序还有更广泛的领域,包括生物制药公司进行的一些合作,还包括一些对于微生物的检测,包括比如说我们的食品、药品安全监管机构,他们现在已经非常广泛地应用我们Illumina测序仪,对微生物、对流行性疾病的病菌、病毒进行一个精准的判断,从而能够快速地采取干预的措施,防止一些传染病的传染。
  再来说一下我们的基因测序对精准医疗的意义所在。有一项美国的研究发现,发布于《自然》杂志2015年4月的,在美国销售额最高的10种药物里面,只有对25%左右的患者真正起到了疗效。也就是说,它所对应的5百亿美元左右的购药费用中,有75%实际上是消费者浪费在上面的,我们的医患浪费在上面的。
  为什么有这种现象?其实大家从常识上也知道,你会发现其实我们现在去看一个病,往往有可能要往复很多次,特别是针对一些复杂性的疾病,因为他很难找到疾病的病因,有可能是多种的原因造成的疾病,同样在癌症治疗领域,化疗几乎是前10年一个非常通用治疗癌症的治疗方式,化疗本身就是伤敌一千,自损八百,对于良性的细胞也起到了杀伤的作用。这个就是为什么越来越多的提到了精准的治疗。
  精准治疗它最终还是由数据来驱动的,这其中有很大的一部分就是我们的基因数据,为什么说是基因大数据?因为实际上和我们今天大会的主题相比,有人工智能,它的历史是发端于上世纪的50年代,而基因学的研究,或者说基因测序的发端,实际上仅仅才是15年不到的时间,这两个新兴技术相比,实际上基因技术更年轻、更处于我们的一个起步的阶段,但是它的数据却是非常之大的,基因测序产生了大量的数据,但我们的科研没法跟上基因大数据的产生,导致我们很多的基因数据还不是非常明确,不明确这些基因数据和疾病之间的关键性。
  这实际上就是我们精确诊断以及精准治疗之间一个重大的挑战,所以在今天我想通过介绍一两个案例告诉大家,在我们基因行业是如何通过人工智能,架起一座基因数据和精准治疗之间的桥梁,而最终造福我们的患者。
  实际上我们知道,医疗最高的境界是什么呢?医疗最高的境界实际上是治胃病,也就是说在疾病没有发生的阶段我们就能够把它给治疗好,而不让它真正恶化。在我们这边看到最重要的疾病如果从我们的医疗角度来说,最重要的是疾病早筛。
  以我们的癌症为例,如果我们的癌症发现能够早于它真正的病毒扩散,那实际上我们的患者存活率会大大提高。所以实际上我们的基因检测在癌症早筛领域是应用非常广泛的,包括针对我们人体血液的一个深度癌症细胞早筛,还包括对于组织样本的一些早筛等等。
  当真正的病人到了临床阶段,也就是说它真正已经发病了,基因检测能够快速判断出这个病人所处的一个基因的变异,为什么说我们病人已经发病了,基因检测还来得及?因为根据我们最近10年医疗手段的不断提高,我们发现癌症的治疗将不仅仅是传统20年前的化疗,更多我们现在谈及靶向药物的治疗,更多的是免疫的治疗。
  实际上我们的基因测序能够快速精准找到基因突变的位点,基因突变的位点往往是跟某种高效的药物是有关联性的,找到了基因突变的位点,就能够精准地给到我们的病患以精准的药物,而不是泛泛的一种治疗癌症的药物,这样能够更好地治疗他的癌症,这就是基因检测在癌症治疗上重大的一个意义。
  随着我们的医疗和科研的不断发展,实际上在我们的人类认知领域,现在已经有越来越多的基因位点被我们发现,来让我们了解,实际上这些基因的位点是和某一个癌症息息相关的,比较著名的比如说关于我们的非小细胞肺癌,实际上是我们用的最多的是EGFR这个基因,一旦基因检测发现EGFR这个基因上有突变的话,我们可以直接诊断出这个用户是罹患了肺癌,包括乳腺癌也是同样的道理。
  同样,在我们的医生面前,实际上对于我们的医生来说,面临的一个重大的挑战是什么呢?重大的挑战是在基因测序以及癌症治疗这个领域,它的支持几乎是日新月异的,每年有数以千计的文章,或者说数以百计的共识在整个医疗行业推出,这些文章包括新发现的基因变异和药物之间的关联性。
  还包括不断推出的一些新的免疫治疗的药物等等,这得我们的医生来给我们的病患出具真正的诊断报告,以及推荐治疗方案带来了重大的挑战,因为知识实在是日新月异,成为了一个重大的医生知识领域的挑战。
  同样,如果医生要给病患出具一份报告的话,他要参考很多的文献,包括我们国家药品质量监督管理局已批复药的信息,包括比如说在美国FDA批药的信息,还要参考目前一些临床实验方面的信息等等。这些大数据实际上对于我们的医生带来了一个重大的挑战,而不同的信息之间的一个过滤和规整收集,实际上精确度对我们的医生给病患出具精确的报告带来了非常好的作用。
  这个时候人工智能就有了用武之地,因为如同我们刚才所说的,实际上如果一个医生要真正给我们的用户提供精确性的诊疗方案的话,实际上他要分析各种各样的数据来源,包括各种表型信息、突变数据库、批准药物等等。
  所以我们的人工智能就能够在这之间假设一个有效的桥梁,它能够通过人类自然语义识别,这个机器学习的技术,还包括它可以通过一个深度神经网络的自学习,能够把这些非结构化的数据,整合成一个对医生来说有用的,而且是经过优先级排序的顺序,能够快速给我们的医生提供一个诊疗的报告。
  其中包括业界前面比较有名的一个IBM的医生辅助治疗平台,能够快速在短短几分钟时间内,出具一个给医生有价值的诊疗建议。如果是一个有经验的技师,他全部手工来做的话,可能需要十几个小时的时间,所以这在很大的程度上节省了医生诊断的时间,同时也可能在某种程度上挽救一个危重病人的生命,这个就是人工智能的意义。
  在这里显示的是我们的科研界,针对我们的人体内部基因突变的一个不断仁的扩展,我们会发现从上世纪的80年代,一直到我们的2016年,我们对于人类的基因突变致病性的认知,实际上在不断以指数级别增长,这也是为什么刚才我说对于医生带来了重大的挑战,因为很多的知识都是新的,很多的药物也都是新的。这个就特别需要我们的人工智能,来给医生进行一个重要的医疗辅助。
  我们公司在前两个月发布了一个开源软件,翻译成中文是临长类AI,为什么称为临长类AI呢?我们公司的科学家发现,临长类动物和我们的基因非常类似,要训练一个AI的软件,它能够真正有它的实验精确判断性和结果路棒性等等需要大量的数据。
  往往我们的科研工作者缺乏这样的大数据,所以我们实际上是通过临长类动作超过10万多的基因样本,对AI的工具进行了一个培训,通过它的深度神经网络自学习,能够判断出来在众多的经过测序出来的突变基因群里面,哪些是真正的致病的基因,哪些是致良性的变异,不是造成我们病患一个真正根本的原因。
  所以通过这样的一个训练,能够快速找到我们在这个图上右边所示的,快速找到14个和人类的精神疾病相关的基因突变,这个开源软件在不断更新过程当中,也发布于我们整个公司网站,以实际上业界很多AI人工智能的科研工作者,完全可以下载这样一个开源的软件,进行进一步的开发以及科研工作,就是我们公司在AI方面近年一些具体的尝试。
  最后我想借这样一句话,也是我们公司的一个使命,就是通过解码基因组的力量改善全人类的健康,我相信这也是和今天的主旨,我们的未来产业就是人工智能,我们都拥有一个同样的终极目标,就是造福于我们的社会,造福于国家,造福于全人类,谢谢大家!

收藏