互联网+ 电子商务 智能家居 地理信息 高端装备 信息安全 3D打印 工业4.0 人工智能 光伏 新能源汽车 消费品 集成电路 移动支付 汽车 数据中心
中国新能源汽车G20峰会(2017)
当前位置:首页 > 产业动态 > 实时动态 > 正文

阿里数据安全高级专家张金在“2017中国网络信息安全高峰论坛”发表主题演讲

发布时间: 2017-04-21 14:36     来源: 满天星

  2017年3月16日,主题为“共享时代的网络信息安全”的“2017中国IT市场年会——网络信息安全高峰论坛”在北京香格里拉酒店隆重举行,携手业界大佬围炉网络盛宴,共议安全大势。阿里数据安全高级专家张金为我们带来“共享时代的数据匿名化”的演讲。
  以下为演讲实录:
 
阿里数据安全高级专家张金
  今天很高兴看到台下很多业界的前辈,也很容幸和各位前辈交流,我们也做了一些我们在数据安全方面的汇报,今天不准备介绍整个阿里的数据安全方面的整体体系,因为大家已经看到很多了,今天我准备从一个小的点上来介绍我们在数据安全上面的思考。
  今天主要讲的是关于数据匿名化方面的考虑,什么是数据匿名化,首先要说的是其实阿里巴巴是一家数据公司,在这个大数据的时代,我相信在座的都会有一个共识,今天数据不应该是孤岛,数据应该是连接在一起才能产生更大的价值,这个时候当数据需要进入共享时代就带来了矛盾,今天我们很多数据其实是个体的数据,但是如果我们希望对它做一些分析挖掘,势必对我们的个人隐私进行了冲击,如何在保证个人隐私的情况下又能够对数据进行很好的利用,这就是我们的课题。
  比如说这是一组数据,大家看到的人的一些疾病的情况,实际上我们把数据分为两大类,一类是标注的数据,我可以通过这个东西识别你这个人,另外你的属性,你这个人大概是什么样的人,或者你有什么疾病,通常这种疾病信息也是很敏感的,如果我们要对数据进行挖掘,要把数据拿进去,其实这是非常严重的个人隐私泄漏。
  我们怎么做?通常是标识的数据进行调整,同时保证敏感的数据不变,能够帮助我们挖掘,通常做法,我们会把姓名这列删除,对电话这列进行加密,对性别和疾病这列就不做任何的处理,因为后续有一些专家就要对这两类进行挖掘和分析。
  但是这么做还是不太够,比如说会场里面假如说有500个人,有499个人都是男性有1名是女性,大家看上去立马就知道这个女性是谁,因此我们在做匿名化的过程中,大家做的是K匿名化,希望至少每个我们刚才隐藏掉的数据是有K的标识的,比如说刚才这个数据里面,像787112和78754只出现过一次,我们输出的时候必须类似于做一些模糊处理,使得从外部分析不出来,这就是我们过去经常说的数据匿名化,今天很多的规范也反复在强调这件事情。
  但是在大数据时代,尤其是技术发展到今天的状态,我们能够很容易存储大量的数据,也很容易对数据进行大量的计算,这种简单的匿名化迎来了很多的挑战。
  最早的一个案例在90年代中期就出现了,发生在美国。马塞诸塞州的州政府,他们把医疗记录给发表出来了,他们也做了一些匿名化的处理,把姓名、街道地址、社会保险号做了删除,当时他们州长就认为,我们虽然公布了数据,但是我们做了很好的隐私保护,不会让大家知道具体的人。
  这个事情很快就引起了一个哈佛教授的注意,他就试图去证明这件事情是有风险的,他做的方法也很简单,美国有个数据就是每当大选的时候如果想要投票就要登记,登记的时候你就会提供你的一些姓名、生日或者是邮编这样的信息。他就用这两个信息进行比对,发现用州长的生日筛完后只剩下6个人,加上性别剩下3个,加上右边最后把他定位出来了,也就是说他用了选举注册的信息和医疗机构给匹配起来,就可以把州长的整个医疗记录全部给查出来,这其实是非常大的隐私泄漏的问题。
  进一步的发现说美国87%的人都可以通过右边、性别、生日三个信息就可以识别出来。他是怎么做到的?这个问题也很简单,过去我们说数据搜索,刚才说用K匿名化把这个数据做了匿名,但是实际上当我们在大数据时代、共享的时代有更多数据在一起的时候,你发现过去的方法不可行了,我们如果加上编号跟表一对比,我们就可以知道他得了流感,这个本质的问题在于敏感的信息在准标准组是不够专业化的,我虽然做了K匿名化,但是依然幅度是不够的,我依然是可以得到信息的泄漏的,顶多是从100维降到了三维,但是依然是有信息的泄漏。
  第二个案例,来自于2006年的美国在线,美国在线他们初衷是好的,把自己2亿条的数据公开了,他说我希望给业界帮助学术界提升我们在搜索技术上的研究,这是2006年的时候,当时给出了什么数据?他说把这些人的搜索关键词全部列出来,把ID给隐藏掉,但是这个人的完整搜索是有的,这样的一份数据,就被一个好事的纽约时报的记者找到了,他就做了分析,就做到了一个人,他的编号是4417749,把他近三个月之内的搜索拿出来了,比如说他搜过盲目的手指、60岁的单身汉,一个到处撒尿的狗。通过这些信息很快的定位到这个女士,而且经过证实也确实是这个女士搜了这些词,当时引起了很大的震惊,说我的信息居然就这样被泄漏了。所以很快的AOL就把他的这些数据下掉。
  下面一个案例是2009年,Netflix做了一个非常轰动的事情,把他的一些在线的评级数据开放出来,搞了一个竞赛,大家知道那个竞赛很轰动,全球有很多团队去围绕着做推荐化的优化,中国也有团队拿到了很好的成绩,他当时是把关于他的评级的这些人的标识信息全部撤掉了,只保留了这个人对每部电影评级以及评级的时间,即使这样的数据也有奥斯丁的两个教授作了研究,他们拿了另外一份数据,有个IMDb网站,是美国一个公开的对电影评级的网站,很多人在上面做注册会员我就可以对电影进行评级。他把这两份数据交引之后,同样一个人在两边都会对同样的电影评级,也差不多同样的时间,经过这样的对比,他发现大部分人都可以对上,这其实是很恐怖的,因为在IMDb上我是公开的,我自己知道,我自己写评论我可能只会觉得这个电影,是还OK的电影我会说我看过,在Netflix,由于是一个私人的影院我看电影不想让人知道,但是这样一对比就泄漏了。
  他们是怎么做到的?简单来说就是矩阵信息性的问题,我们可以想象我们所有的行为,像刚才说的评论是个特别高维的矩阵,它可以升为高维的空间,在那个空间里面我们所有人是稀疏的,每个人最终在里面都是个小点,他们经过研究,我通过两个评级就可以把刚才的50万用户定位到8个范围内,如果用到4个评级,就可以把唯一的标识出来,如果你恰好对不流行的电影作了一些评级,你就会更加的明显。
  这也就告诉我们,我们在今天数据的匿名化的过程中,如果我们借助外部的辅助数据是很容易把人给定位出来的进一步我们沿着这个思路往前走,MIT在2013年也做过这样一项研究,今天由于移动互联网的发展,今天在LBS方面有了很长足的发展,今天很多人都会用位置记录,他用了150万的手机位置基础信息做了一些分析,类似这样的轨迹信息,他发现,即使我不包含任何的标注信息,我只需要四个点就可以把95%的人给识别出来了,这是非常震惊的事情。因为大家用得最熟悉的,比如说指纹识别,至少也需要12个点,才能识别一个人,但是我们现在用时空的信息可能就4个点就可以了。
  这就告诉我们说今天即使我们把姓名、邮箱地址或者是个人信息处理掉,我们这个数据依然是可以和你挂钩的,因为每个人都是特殊的,都跟别人不同,也就是说,在今天我们享受了很多数据服务带来的便利的同时,我们也付出了隐私的代价,我们未来是怎么平衡这两者的关系,也是我们这些从业者需要考虑的问题。
  刚才说了这么多,大家可能会觉得非常可怕,过去我们大家认为非常好的是,我把你的重要信息匿名化了之后,数据就安全了,可以拿出去了,现在证明是有问题的,那怎么办,到底有没有解法,我们的数据科学家也一直在这个方面做一些探索,现在也有一些特定场景下的解决方案,比如说查找隐私,在座的做数据,我们经常说做个用户画像,在座的这么多人,比如说100人,比如说男女比例是6比4,但是有人说我就想知道某个人的性别怎么办,我再做个画像,做101人的,就比刚才多了一个人,我再观察一下男女比例有没有变化,如果有变化,我立马就可以知道他是个什么情况。
  差分也是最大的目标,希望最大化的查询准确率的同时,最小化的隐私泄漏的风险,,他需要保证的事情,当一个单独个体的加入或者是删除对统计结果是明显的地因为我们要看到的是统计的信息,我们需要保护个人隐私,具体做法就是说,对查询结果要加拉布拉斯的噪声,使得大家在一个具体点上没办法去区分具体是哪个数据,目前已经比较成熟了,在最近的IOS10上面已经很成功的应外了这样的技术保护大家的隐私。
  下一个方案是同态加密,其实它的思想也非常朴素,如果大家觉得我们的数据通过匿名化不够安全,我们能不能把所有的数据加密,我直接在加密的数据上面做分析,同时保证依然能得到正确的结果,就基于这样的理念进行设计,我可以举个简单的例子,比如说我们今天想知道1+2等于几,但1和2我不想告诉外面的人,那怎么办,我把它进行加密,加密成了33+54,大家可以知道等于87然后又可以通过87反推出来最终的正确答案是3,他最后拿到的是3,但是这个3他不知道是怎么得来的,这样就保护了前置数据安全的情况下,又能拿到正确结果,这是一个非常好的方式,当然这个方式更多还是理论化的思考,有一些算法中的设计。
  还有第三种方式,我们把它叫做零知证明,今天我们在一些场景下,其实没必要像刚才说的我直接把数据拿出来,甲方交给乙方,你给我做个事情,但是你要向我证明你有这个能力。零知证明有是想提供这样的一个方案,证明方向,求证方证明一个结论,但是我又不提供关于这个结论以外的信息,我只告诉你答案,我不向你泄漏里面任何一点其他的信息。求证方,我是不能通过这个结论向任何第三方再次证明的,我们假设有两个小孩,一个叫做Peggy(女孩),一个叫做Victor(男孩)。我们的Peggy,她说我有把钥匙可以开这个门,Victor说你不让我看你钥匙OK,但是你要向我证明这件事情怎么来做,他们就设计了一套这样的策略,Peggy首先任意道路选进去,进去之后,Victor再说我来向你提出问题,你能不能从A出来,Peggy跨过这个门从A出来了,就证明她可以有这个钥匙,同时在开门的过程中Victor并不在场,所以对钥匙长什么样和钥匙具体怎么开这个门的是不知道的。
  通过这样的一套策略,就可以保证说,我能够去证明,我有能力告诉你正确答案,但是你又不会知道更多的信息,在今天很多服务的场景,我们都在应用这样的策略来做。
  经过刚才的一些介绍,我跟大家说一下,我们现在对于数据的安全和数据共享当中的思考,今天我们新的数据的采集能力、存储能力、计算能力都比过去大幅度提升了,这种能力使得我们过去传统意义上的匿名化受到了很大的挑战,这是明确的一件事情。
  同时也告诉我们,我们这些做数据安全的人来说,今天对于个人的隐私保护,不仅仅局限在过去的数据属性,我把你的名字隐掉了,我把你的手机号隐掉了就OK了,实际上也有算法的事情,因为我们通过一些算法的方式很容易把你这个人找出来,这是非常危险的事情。
  但是我们也会觉得,今天我们不用那么害怕,因为永远技术在发展,我们永远会有新的技术出来,新的技术可以给我们提供可能解决的方案,但是同时也没有那么乐观,我们今天的大部分都在实验室阶段,只有差分隐私的方式在IOS上得到了非常好的应用。
  从分子论的角度上来说,我一开始提到,今天的隐私和数据价值的挖掘是一对的矛盾,就像便利性,过我有朋友老问我,今天大家去银行拿银行卡密码太麻烦,能不能简单一点,我说你简单了,贼也简单了,永远你的安全和你的方便性一样是矛盾,你今天隐私和数据价值挖掘,你越想挖它的价值,越要对它了解,但是这种了解就很容易需要对细节的了解,细节的了解就是对大家隐私的了解,这是一对矛盾,但是我们依然在这个矛盾中不断的前行。
  最后一点,我们做数据安全行业的自己的心得,今天我们在做数据挖掘利用过程中,真的是如履薄冰,谨慎前行,我们每一步都是在往前探索一个新的一步,但是每一步都非常的小心,因为今天我们如果把数据完全的打开,可能造成很多的恐慌,像之前有人说,我们可以通过淘宝查询大家的开房记录,这种事情对大家的影响真的是难以想象的。
  今天对于我们来说,怎么样在安全的角度上怎么样慢慢的慢慢的往前探索我们可能的道路。最后我也介绍一下,我来自于阿里旗下的一个全资子公司叫永盟加,我们目前也在数据安全的限制下,也做一些数据挖掘服务的尝试,如果大家有兴趣,欢迎随时联系我们。谢谢!

收藏