Deep Learning Backdoor Attacks Detection

The susceptibility of deep neural networks to backdoor or trojan attacks has been demonstrated, wherein an adversary embeds a trigger during the training phase. This trigger allows the model to correctly classify regular inputs but produces a targeted and incorrect classification when the input contains the trigger. In this report, a trojan detection method was discussed, which circumvents the need for access to the training/test data, avoids computationally intensive operations, and does not rely on assumptions about the trojan trigger’s characteristics. Instead, this approach focuses on analyzing the weights of the network’s final linear layer. Empirical findings revealed several recurring traits in trojaned networks, absent in benign networks.

Deep-Learning-Backdoor-Attacks-Detection-Saba-Zaib

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2023/06/26/deep-learning-backdoor-attacks-detection/

(0)
bfsbfs
上一篇 2023年6月19日 上午8:26
下一篇 2023年7月3日 上午10:18

相关推荐

  • 图半监督学习

          图半监督学习是半监督学习中的一种,基于聚类假设和流形假设,利用少量的有标记样本和大量的未标记样本,提高训练得…

    2018年9月3日
    882
  • 缺乏先验知识条件下的模型窃取方法

    随着机器学习的快速发展,图像分类、恶意软件识别等多个领域都通过建立机器学习模型解决相应的问题。但由于一些训练出的模型可能涉及训练数据的隐私信息与模型的商业价值,所以其安全性一直备受…

    2021年4月14日
    1.1K
  • 极端多标签文本分类

    极端多标签文本分类旨在为每个文本分配大量可能的标签,处理标签数量巨大和数据稀疏性问题。该技术通过高效的特征选择、标签嵌入和深度学习模型,提高分类准确性和速度。极端多标签文本分类广泛…

    2024年9月17日
    953
  • 源代码漏洞分类

    漏洞分类是漏洞分析中的重要一环,为了及时评估并缓解漏洞问题,快速、准确的漏洞分类方法必不可少,但目前漏洞分类领域面临着由于不同类型的漏洞数量高度不平衡导致的漏洞类型预测精度不佳的问…

    2023年12月14日
    1.2K
  • 智能体的工具调用攻击

    本报告探讨了大语言模型智能体工具调用机制中的安全漏洞,重点分析了两种新型攻击方法。AMA攻击通过黑盒迭代优化恶意工具的元数据,使其在语义合法的前提下显著提升被智能体选择的概率,在多…

    2026年1月26日
    437
  • 使用Python进行并发编程

    本次报告首先介绍了线程、进程的概念,由此讲解操作系统中实现并发编程的三种方式,着重介绍了Python语言下多线程、多进程、协程的编程方法,并结合开发实际,给出了在线程、进程、协程之…

    2020年2月27日
    1.3K
  • 大模型指导的内核模糊测试

    本报告阐述了大模型在内核模糊测试中的应用,介绍了 KernelGPT 和 ECG 两种技术。KernelGPT 自动推断系统调用规范,显著提升漏洞发现效率;ECG 结合静态分析与大…

    2025年6月23日
    802
  • 大规模多标签分类方法

    近年来,随着互联网技术的高速发展和数据规模的快速增长、大数据的应用,多标签分类应用场景越来越多,如电子商务中的商品分类、网页标签、新闻标注、蛋白质功能分类、音乐分类、语义场景分类等…

    2020年12月13日
    2.5K
  • CSRF跨站请求伪造

          CSRF(Cross-site request forgery)全称跨站请求伪造,是利用受害者尚未失效的身份…

    2019年1月7日
    1.0K
  • 深度神经网络对抗样本防御方法

    近年来深度学习技术不断突破,极大促进了人工智能行业的发展,但人工智能模型本身易受到对抗攻击从而引起严重后果。对原始样本有针对性地加入微小扰动,该扰动不易被人眼所察觉,但会导致人工智…

    2021年1月4日
    1.4K