文本生成大模型后门攻击研究

研究文本生成大模型的后门攻击,揭示了现有文本大模型的后门风险。本次学术报告详细介绍了现有文本生成模型的后门分类方法以及基准数据集,在文本大模型的多个下游任务实现了后门攻击,并总结了现有所使用的主流方法,最后提出了领域所面临的挑战和未来发展方向。

文本生成大模型后门攻击研究-赵怡清

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2025/03/24/%e6%96%87%e6%9c%ac%e7%94%9f%e6%88%90%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb%e7%a0%94%e7%a9%b6/

(1)
bfsbfs
上一篇 2025年3月17日 上午11:06
下一篇 2025年3月31日 上午11:12

相关推荐

  • 二进制文件复合数据类型恢复

    二进制文件复合类型恢复技术在程序理解、逆向分析和漏洞检测等领域具有关键价值,能够显著提升类型信息还原与代码语义解析的准确性与效率。该技术通过推断和重建结构体、数组等复杂数据类型,有…

    2025年9月4日
    1.8K
  • active self-paced learning

          在机器学习中获得标注数据是一个重要的部分。但是在一些专业领域,标注成本高,成本高,导致了获得标注数据困难。主…

    2019年2月24日
    1.8K
  • 认知扭曲识别研究

    认知扭曲是认知行为治疗中的核心概念,与抑郁、焦虑等心理障碍的形成和维持密切相关,但现有很多研究主要关注情绪倾向或表层语义,难以刻画个体更深层的思维偏差与认知模式,同时认知扭曲往往存…

    2026年4月8日
    944
  • 深度半监督聚类技术

    研究深度半监督聚类方法,首先利用自编码器对高维数据降维处理,同时提取构建三种范围的约束信息:主动构建的成对约束、带标签的种子约束、簇间大小比例约束;最后融合三种约束信息指导编码器训…

    2023年4月23日
    2.2K
  • 基于视觉直觉的源代码表征

    源代码表征是软件工程中的一个重要研究领域,主要关注如何有效地将源代码转化为可以支持各种软件工程任务(如代码搜索、克隆检测、代码自动生成等)的数学模型或数据结构。这些表征通常需要捕获…

    2024年9月23日
    1.9K
  • 人工智能模型的公平性测试

    人工智能技术发展迅速,不仅在图像领域,在决策系统等领域也发挥了重要作用。用于模型训练的数据集中含有显示或者隐式的敏感属性(如性别、种族等),模型往往会利用敏感属性的特征做出决策,这…

    2024年9月29日
    2.2K
  • Android应用安全检测

        Android应用在开发和发布初期可能存在各种原因导致的隐藏安全风险,这些安全风险如若不进行检测和修复,会给用户和开发者带来巨大的损…

    学术报告 2017年11月20日
    1.9K
  • DNN中的理论可解释性

    自DNN诞生起,人们就开始尝试对其解释。若要对DNN进行定量、严谨的解释,数学层面的理论构建是必要的。本次报告介绍了基于博弈论Shapley Value构建的DNN可解释性理论体系…

    2024年1月17日
    2.0K
  • 词向量计算——word2vec算法理解

    魏超2014.11.2

    2014年11月4日
    2.0K
  • 文本相似度度量方法

    文本相似度度量是自然语言处理中的一个基础问题,是许多下游任务的基础,如文本分类、信息检索、对话系统、句义标注等。相似度匹配的过程包括了构造特征与度量特征两个基本步骤,其中构造特征是…

    2022年3月13日
    2.6K