Testing of Deep Networks

DeepXplore: Automated Whitebox Testing of Deep Learning Systems

Kexin Pei, Yinzhi Cao, Junfeng Yang, Suman Jana. 2017. DeepXplore: Automated Whitebox Testing of Deep Learning Systems. In Proceedings of ACM Symposium on Operating Systems Principles (SOSP ’17). ACM, New York, NY, USA, 18 pages. PDF

随着深度学习越来越多地应用于安全关键领域,对模型预测准确性的高度信任至关重要。正如传统的软件开发一样,对模型行为正确性的信心源于对各种可能场景的严格测试。然而,与传统的软件开发不同,深度学习系统的逻辑是通过训练过程学习的,这为许多可能的意外行为原因打开了大门,例如训练数据中的偏差,过度拟合,欠拟合等等。作为一个实际的代码行不存在,深度学习模型极难测试,那些做的人面临两个关键挑战:
1.如何触发模型的所有(或至少大部分)逻辑以发现不正确的行为?
2.如果没有人工检查,如何识别这种不正确的行为?

为了应对这些挑战,本文的作者首先介绍神经元覆盖率,作为测试案例激活模型逻辑的量度的量度。为了避免手动检查输出行为的正确性,在同一组测试输入中比较了为同一目的设计的其他 DL 系统,遵循以下逻辑:如果模型不同于至少一个模型的输出必须是不正确的。然后将这两个解决方案重新表述为联合优化问题,该问题在白盒 DL 测试框架 DeepXplore 中实现。

逛了一圈论坛,发现没有人提到去年新出的 DeepXplore,不知道有没有同行已经对 DeepXplore 有所研究,希望可以共同探讨


↙↙↙阅读原文可查看相关链接,并与作者交流