Dawn SONG:安全是AI应用最大挑战 需强健的防御系统
2018-04-28 01:25:00 来源:腾讯汽车

4月27日,由长城会和腾讯汽车共同承办的“AI”生万物·全球未来出行峰会在北京举办,活动现场,加州大学伯克利分校计算机系教授Dawn SONG发表了主题演讲。

Dawn SONG教授认为,安全将会成为在AI应用方面最大的挑战,它需要整个行业的努力,需要更多的资金投入,“如何更好的理解,对于AI学习系统来说什么是安全,当这个学习系统被欺骗的时候,我们如何识别,如何有更强大的保证建立起一个具有韧性的体系。”

以下是发言实录:

Dawn SONG:我们知道深度学习已经在全世界起到了重要作用,比如说AlphaGo已经赢得了世界冠军,深度学习之后我们会为日常用品提供动力,所以我们看到整个深度学习已经成为了市场中不可磨灭的一部分。

人工智能需要更多的资金投入,使得人工智能更的快发展。随着人工智能控制越来越多的系统,攻击者将会获得更高的激励,但是,当人工智能变得越来越有能力的时候,攻击者滥用的后果将会变得更加严重。

给大家举几个例子,是关于深度学习导致的一些问题。在右边图中所示可以看到一些例子,这些图片是由原始图片以及待处理的图片结合起来的,通过人眼你可以看到这些例子,而人眼是无法分辨出来原始图片和被处理图片之间的不同,因为原始图片和处理过的图片经过人眼识别后,它们对人眼前产生的效应是相同的,所以他们能够愚弄整个人的视觉系统,导致人的学习系统瘫痪,这种情况下,就会产生一些误导。

Google在早期深度学习中发现了一些问题,刚开始就会发现这些AI很容易被愚弄,我们为什么要在乎这些东西呢?如果我们要实现无人驾驶的话,我们必须要观测周围的环境,例如说要识别公共交通信号,这样你才能够安全的在马路上驾驶。

所以在图片上可以看到,这里有一些交通标示,对于人类眼睛来说,你可以识别这些“停止”的标志,但是假设它是机器人呢?AI是否能够很好的识别呢?而人类识别这些是没有问题的,但是机器是否能识别确实是一个问题。因为这些停车标志在不同的地方会有一些微调,导致机器识别产生困难。

所以,在真实世界中,在物理世界中,我们可以看到已经发现了这些标志的不同,所以我们发现在物理世界中这些标志在产生变化的情况下,如何让机器人不被误导,是我们亟待要解决的问题。。

下面给大家播放一段视频,这个视频有两个小边框,可以看到右边的那张图是原始的交通标志,左边的这张图是原始的交通标志经过了微调的效果。是否能够正确的分辨出两个交通标志的不同?当车驶过交通标志的时候,可以看到原始的,而那个被微调过的交通标志,整个系统就错误的忽略了这个交通标志的意义,最终导致了车祸。这就表明了物理世界中的例子,能够在实际生活中有非常严重的错误,特别是在那些待处理的物理世界中。

我们已经有很多这样的例子,在不同的区域,在不同深度学习的过程中,我们都学习到了这些东西。我的结论就是,这些例子在深度学习中非常具有普遍性,并且也很容易识别。在其他的深度学习系统中,比如说生成模型、图画到代码之间的转化,这些都需要深度学习。可以看到一个中介训练深度学习,做一个游戏的设计,这是非常流行的技术,AlphaGo就是用这个技术训练的,我们可以看到同样的中介训练,这个中介训练的非常成功,但是在中间的那一栏(图),我们加入了一些调整过的模型,可以看到在这里训练,如果对抗样本出现的时候,加入了整个样本,操作系统就完全错误的判断了游戏的进程,并且失败了。所以可以看到,抗样本在这方面的影响有多么的大。

由于对抗样本的重要性,我们做了很多研究,研究如何去避免对抗样本对结果产生的不良影响,现在我们已经可以避免机器学习带来的一些逆反作用,同样我们也可以训练一个语言安装电子邮件数据,并且培训一种语言模型,该模型会包含真实的智慧安全卡和信用卡,所以在深度学习中我们需要去了解这些微调的例子。

刚刚给大家举了一些例子,关于如何来防止操作系统被愚弄,黑客们同样也能够给大家带来一些其他的困扰,通过攻击你自己的学习系统。

这些攻击者的目的几乎都是相同的,他们要获取你的秘密。比如说你收集了一些数据,你的数据是驾驶汽车的数据,或者说是通过测试出来的数据,他们需要攻击,并且能够取得这些数据,这些数据非常敏感,这些攻击者能通过攻击来获取你的数据吗?所以在日常生活中我们进行了一项研究,我们的研究表明,通过我们训练的语言模型,对邮件数据集中进行了语言模型的训练,数据集里面包括非常敏感的信息,包括人的信用卡和社保号,结果表明通过这样一个模型,哪怕是我们不了解的细节,通过这次攻击,攻击者可以窃取社保号、信用卡号,但是,如果我们要有不同的机器学习的模型来保护隐私,我们就可以使得攻击变得非常的困难。

我们要保证云端的机器学习,保护好用户的敏感信息,特别是在我们关注机器学习系统的时候,有几种不同类型的威胁,需要我们非常谨慎的处理。一种是在机器学习的系统当中,用户的信息被收集起来了,进行了分析,项目的运行,这个项目将会执行和预测最后的结果。在这个情景当中,有两种类型的信息需要关注,一种是非信任的机器学习,机器本身不需要得到信任,也许他在袭击之下,分析师的账户受到了威胁,同时计算的基础设施也会受到威胁,最后计算的结果也许会展示之前输入的敏感信息,就像我刚才讲到的邮件数据的例子。

从这几个例子中可以看到,我们开发了不同的技术,包括基本的程序撰写和要保证那些不可信的项目得到识别,使得这个程序能够满足安全要求。我们要使用安全的硬件,保证安全的竞争,能够有一个非常值得信任的计算基础设施,我们可以通过区分式的隐私措施保证在最终的输入当中不会让我们产出敏感的输出信息。

利用各种各样的技术,就可以建立起安全和隐私保护的平台。 总结一下,我们有非常多的开放式的挑战来部署机器学习,比如说,如何更好的理解,对于AI学习系统来说什么是安全,当这个学习系统被欺骗的时候,我们如何识别,如何有更强大的保证建立起一个具有韧性的体系。我认为,安全将会成为在AI应用方面最大的挑战,它需要整个行业的努力,我们要共同应对这个挑战。

  • 为你推荐
  • 公益播报
  • 公益汇
  • 进社区

热点推荐

即时新闻

武汉