文本生成大模型后门攻击研究

研究文本生成大模型的后门攻击,揭示了现有文本大模型的后门风险。本次学术报告详细介绍了现有文本生成模型的后门分类方法以及基准数据集,在文本大模型的多个下游任务实现了后门攻击,并总结了现有所使用的主流方法,最后提出了领域所面临的挑战和未来发展方向。

文本生成大模型后门攻击研究-赵怡清

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2025/03/24/%e6%96%87%e6%9c%ac%e7%94%9f%e6%88%90%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb%e7%a0%94%e7%a9%b6/

(1)
bfsbfs
上一篇 2025年3月17日 上午11:06
下一篇 2025年3月31日 上午11:12

相关推荐

  • 动态规划算法简介

    1 基本概念 维基百科对动态规划(Dynamic programming,DP)的定义:它是一种在数学、计算机科学和经济学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂…

    2015年1月29日
    1.1K
  • 深度学习系统安全性测试及测试样本优先级排序

    深度学习在近十年取得了长足发展。由于其在复杂领域表现出优异的性能,逐渐被集成到软件体系中形成深度学习系统。这一方面推动了深度学习的发展,另一方面也对深度学习的安全性提出了巨大挑战:…

    2021年11月29日
    1.4K
  • 源代码自动化编辑方法

    代码自动编辑任务通过应用频繁出现的编辑模式对现有代码进行修改,能够提升软件开发的效率。CODIT方法将代码编辑过程建模为树结构变换和标记生成两个阶段。MODIT方法输入整合需要编辑…

    2022年7月10日
    718
  • 面向深度学习软件库的API层的漏洞挖掘方法

    深度学习软件库作为构建和训练深度学习模型的基础,对深度学习软件库进行检测、挖掘软件库的代码漏洞,是保障深度学习模型的可靠性的基础之一。本次报告介绍了2种基于API层的深度学习软件库…

    2023年2月27日
    856
  • 用户画像建模

    本次报告介绍了用户画像建模的相关基本概念,以及用于短文本处理的用户画像构建LDA-RCC组合模型。基本概念包过用户画像的作用、构建过程、分类等。LDA-RCC组合模型解决了传统文本…

    2021年3月9日
    872
  • 数据集不平衡评估方法

    本报告围绕“数据集不平衡程度评估”展开,聚焦于如何科学量化多类数据中的结构性不平衡问题,突破传统以样本比例为核心的评估局限。报告系统回顾了不平衡评估的发展脉络,分析了现有方法在面对…

    2025年7月28日
    437
  • 走近特定音频识别(之四)—— 训练和识别

    上篇文章介绍了“识别”和“检索”的区别和关系,从这篇开始,我们将从更近的距离接触特定音频识别,本文将向大家介绍特定音频识别系统的基本构成。     一个典型的特定音频识别系统的原理…

    2014年10月28日
    769
  • 大语言模型调研

    针对大语言模型展开调研,介绍大语言模型发展背景和研究现状,通过讲解LLaMA2模型的预训练和微调步骤,全面讲解大语言模型的训练过程,随后对越狱攻击大语言模型的方法进行研究,通过讲解…

    2024年1月3日
    743
  • TCP之可靠数据传输

          TCP协议是面向连接的可靠数据传输协议,如何在不可靠协议IP协议的上层实现可靠数据传输,主要通过差错检验、分…

    学术报告 2018年4月10日
    727
  • 基于图的课程推荐方法

    课程推荐在人机协同、个性化学习平台等智能教育系统中具有重要价值,显著提升了模型对用户兴趣动态变化的建模能力与推荐效果。本次报告将介绍课程推荐任务,分析其研究背景与应用意义,并重点讲…

    2025年4月22日
    446