深层神经网络面临严重的安全问题。2019年12月21日在深圳举行的2019年智能开发者大会上,人工智能治理和评估是重中之重。论坛由新一代人工智能产业技术创新战略联盟鹏程实验室主办,广东、香港、澳门及海湾地区人工智能与机器人联合会和广东省人工智能与机器人协会协办。
会议第一天,新一代人工智能战略规划国家作者、北航高级工程学院副院长、OpenI理事会成员吴文俊从人工智能治理技术、国内外研究现状、平台建设等方面分享了“人工智能治理与评估方法”。以深层神经网络为代表的
以下为吴文峻演讲内容实录,AI科技大本营(ID:rgznai100)整理:
新一代人工智能带来的挑战
AI治理技术
还有人工智能的公平性,这在国内外的许多人工智能应用中都有提及,例如,当人工智能被用于为不同肤色和种族做出智能司法决策时,包括求职时的自动简历筛选,包括银行贷款发放等。如果算法在数据处理上不均衡,很可能算法的最终判断有偏差,从伦理道德的角度来看会带来严重的社会问题。
我们可以在这里总结人工智能治理或伦理原则,以赢得人们的信任为主要核心。覆盖方向主要是四个,一个是安全性,另一个是透明性。该算法不是黑盒,它使人们了解深层神经网络的操作、推理过程和训练过程。第三是隐私。第四是公平。
学术界和工业界都在对这些原则进行大量研究。这是因为围绕上述四项原则的法律、道德甚至哲学方面的讨论可以永远进行下去,因为这是我们人类社会追求最终正义的表现。
还有两个针对AI治理的技术,一个是测试技术,一个是形式化验证技术。
对神经元在不同输入里的上下边界进行数值的刻画。
例如,关于透明度的解释工作正在进行,包括将人工智能推理过程翻译成自然语言,包括复杂的黑箱深层神经网络是否可以等同于简化的代理网络,例如决策树和贝叶斯图。还有各种深度神经网络的可视化工作,以可视化的方式显示神经元推理过程中不同输入条件下的激活状态。
另一个是可追溯性,因为人工智能模型和应用是连续的过程。在软件工程中,将数据生成为中间数据的模型和在训练过程中生成的方法可以以阶段版本的形式来表征,然后可以表达进化过程或数据。当出现问题时,可以分阶段进行判断、审计、完善等,最终确定人工智能模型在一定文化或事故条件下的权利划分。
在目前这种AI大潮情况下,能够把人工智能模型的开发和运维周期有效结合起来,无论是从任务的提出到模型训练数据的收集,到训练过程,到对模型的测试和评价过程,以及到最后的模型应用,我们都可以不断地加入刚才提到的这些治理要求,比如刚才讲的公平的要求、质量的要求等等。
通过工具嵌入到开发周期当中,能够使得在每一个阶段都能使模型数据、模型本身的实现能达到我们的伦理期待,这是将来很多人都会不断推进和做的一件事情。
目前,学术界还没有一个能在很短时间内覆盖大规模神经网络的正式工具。然而,近年来,一些初步的研究和探索已经开始。至少有些情况是可以形式化的:国内外研究现状神经元的最大问题是在干扰的情况下会有严重的偏差,这会导致严重的误判。因此,在未来,这是可以预料的
最后一个是测试技术。我们知道该软件已经测试多年,方法非常成熟。对于神经网络的测试,它不被视为一种工程方法。人们通常使用测试集来训练其acc、auc和其他学习和训练表现。然而,在过去,这种测试对于在干扰下的各种错误行为来说相对较少。神经网络本身的一些覆盖测试和黑盒测试才刚刚开始。
综合这些技术,这几年这个领域的研究非常活跃,特别是从软件工程角度和对AI模型自身角度的研究,特别是哥伦比亚大学做的工具、自动驾驶做的deep test工具,包括IBM、谷歌、清华、百度等等都有相应的工具出台。对于这些研究主要集中在对神经网的对抗样本研究,也就是说,目前运用GAN网络,在正常情况下,通过加入人眼无法辩识的信号干扰,使得AI模型产生完全不期望的结果。
目前,虽然国家在测试方面有许多宏观政策,要求我们安全、可靠、可控地开发人工智能,但目前还没有统一的测试方法和机器学习算法的标准规范,这些都是亟待推进的事项。在国外,包括国际标准化组织、美国标准局和加拿大等。一些法律法规相继出台,其中许多都是模糊的原则性表述。可以想象,在这一领域还有许多工作要做。
我们认为,如果未来的人工智能产品、算法和模型要大规模推广,不仅要测试它们的功能,还要测试它们的安全性和可靠性。如果不符合检测标准,就无法获得国家有关部门的授权,无法真正在市场上推广。我相信未来肯定会有这样的情况,所以所有重要领域的人工智能算法产品在你真正部署应用程序时都必须经过严格的测试和认证。
模型测试
模型理解
模型优化如熊猫,你添加一些噪音并将其识别为猴子或猩猩,而有干扰的香蕉可被视为矿泉水瓶。
大量数据和大规模网络训练时,我们知道深层神经网络通过算法迭代优化,通常只找到局部最佳点,而不找到全局最佳点。因此,优化曲率、梯度坍塌和爆炸是优化过程中的常见问题。通过反复训练,模型的性能提高了几个百分点,但是模型的安全性非常不安全和不稳定。
在这里,我们做了一系列的工作,包括在路标上粘贴一些小补丁,并根据算法生成它们。事实上,增加了一些噪音。最后,自动驾驶算法在停车、交通和速度限制方面完全不同。例如,如果速度限制被指定为20英里/小时,并且通过标记将其增加到80英里/小时,自动驾驶车辆在通过时将会有严重的误判和问题。这都是由GAN算法生成的,场景需要充分考虑。
这里还有一个显示屏,与网上购物有关。例如,JD.com或其他购物应用程序可以给物品拍照,并在网上商城找到相应的商品列表。例如,如果你在方便面上贴一个补丁或者在矿泉水瓶上贴一个补丁,你最终会发现产品种类繁多,完全不是你想要的。
标准制定
PPT刚才显示了在场景中添加一片对抗会使机器学习算法完全无效的情况。我们可以使用什么方法来更好地加强和优化我们的算法,以避免这种误判,并提高系统的稳定性和鲁棒性?
我们的工作描述了神经元的敏感性。灵敏度的这一定义意味着当你向神经网络输入拮抗样本时,显然观察到并非所有神经元都是敏感的,也并非所有事物都明显处于相对剧烈的反应或输出激活状态,所以你可以用最高的灵敏度来标记神经元,在每层神经元的输出周围,可以添加一种自适应调节机制来减弱这种过度敏感神经元对整个神经网络辨别过程的影响。我们在这里做了一些可视化工作和一些灵敏度增强工作。
平台建设
此外,还分析和比较了模型不同信号噪声之间的相关性,包括自然噪声和反采样产生的噪声。在雪花、变形等自然噪声的情况下,它与反样本生成所产生的人为干扰有一定的相似性,表明鲁棒性问题是由模型本身的结构和模型的参数训练问题引起的。为了解决这个问题,除了加强和优化结构和参数之外,在
这里组织了一期可解释的神经网络专刊,以促进这一领域的工作。这里有一些关于模型量化的工作,特别是将一些线性网络模块添加到量化参数中,并将它们添加到每层的当前权重输出中,可以使权重在相对稳定的范围内。
此外,我们在神经网络反向训练的BP过程中加入了反样本。这样,可以有效地提高训练后的神经网络计数器的鲁棒性和对自然噪声的鲁棒性。
010-59000
这是刚刚提到的如何通过算法有效增强敏感神经网络。
010-59000
目前,在这一系列工作的基础上,我们对制定该领域的国家标准进行了一些探讨。特别是去年底和今年年初,中国电子产业化技术协会推出了一个群体标准,专门用来衡量机器学习算法的鲁棒性,如最差决策边界、噪声敏感度和神经元敏感度。所有这些都已纳入集团标准。目前,集团标准正朝着建立国家标准的方向推进。
此外,我们还与工业和信息化部合作,将这些算法纳入到工业和信息化部门到门绑定操作的标准化评估和评价平台的开发中,建立相应的数据模型和资源数据库,并引入模型数据检测和模型评价等方法。
010-59000
目前,整个人工智能的运行和维护管理通常需要以下云环境。今天我们讨论了各种开发工具,包括数据注释、主动学习、知识映射工具,特别强调安全验证工具等。它们可以作为微服务有效地链接在一起。在此基础上,我们可以完成数据收集、排序、培训、模型部署、操作和维护的全过程。
如果我们比较软件工程配置项/光盘领域当前的连续集成、连续部署过程和深入学习模型,这些过程之间有一定的相似性。软件的配置项/光盘过程,软件应该通过从代码库中编译来管理该过程,引入一些工具来评估代码质量,然后将其放在谷歌网或其他云上。人工智能模型也是如此,它需要以最佳方式构建、设计和部署。目前,大多数制造商对设计优化和部署都有相当多的工具支持,但相对而言,用于评估、测试和加固优化的开源工具相对较少。这需要在国内外大力发展、研究和推广。
这是我们研究的测试平台的原型,类似于一般的开发过程。
这是当前开发的基本界面。在这个界面中,每个人都可以提交自己的模型。我们可以通过不同的抗噪声和自然噪声测试样本来评估算法的性能、安全性和可靠性,并进一步给出模型的改进建议。基于刚才的框架,还有许多后续工作和工具要继续做。
根据刚才所说,我们的计划是在理论研究和原型开发的基础上使平台更加成熟。该计划将于今年晚些时候纳入我们的开源框架,为人工智能的持续健康发展和治理做出努力。