大模型在微调阶段的后门攻击

随着大语言模型的快速发展与广泛应用,其安全问题日益凸显,后门攻击便是主要威胁之一。本次报告介绍了两种针对大模型微调阶段的后门攻击方法,它们分别通过确定目标生成条件和改变Token,提升攻击的隐蔽性与有效性。

大模型在微调阶段的后门攻击-满乐彤

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2025/11/24/%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%9c%a8%e5%be%ae%e8%b0%83%e9%98%b6%e6%ae%b5%e7%9a%84%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb/

(1)
bfsbfs
上一篇 2025年11月17日 下午5:28
下一篇 2025年11月25日 下午12:00

相关推荐

  • 注意力机制

          注意力机制应用在encoder-decoder模型中,可以使Decoder根据时刻的不同,让每一时刻的输入都…

    2018年10月8日
    2.1K
  • 关系抽取之远程监督

    远程监督方法用于关系抽取任务,会给数据集带来噪声样本,为此,本文介绍了两种基于多示例学习的去噪方法,能够有效的去除训练集中存在的噪声样本。

    2019年8月24日
    2.0K
  • 贝叶斯网络

    贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。从1988年由Pearl提出后,已经成为近几年来研究的热点.。

    2020年6月21日
    2.3K
  • 对抗样本攻防的两种奇思妙想

    围绕图像对抗样本攻防这一核心主题,介绍以 Block Shuffle & Rotation(BSR) 为代表的迁移攻击增强策略,以及以 Delta Data Augment…

    2025年11月17日
    1.7K
  • 神经网络模型测试方法与模型健壮性

    针对神经网络模型的缺陷测试使用了神经元覆盖率指标指导测试,这是一种从软件测试领域迁移的概念,指的是测试激活的神经元越多,测试越充分。但是近年来这种测试方法的有效性存疑,特别是测试生…

    2022年7月24日
    2.3K
  • 人工智能生成内容检测

    本学术报告概述了人工智能生成内容检测的背景、挑战及两种核心算法——DetectGPT和DeTeCtive。重点阐述了基于概率曲率的零样本检测方法和多级对比学习框架,分析了其原理、优…

    2025年1月5日
    2.4K
  • 在线集成学习

          本次学术报告介绍了集成学习和在线学习基本思想,对离线bagging(装袋)和离线boosting(提升)的基…

    2019年7月1日
    2.4K
  • 特定安全攻防场景中的对抗样本生成方法

    最新的特定安全攻防场景可以细化为两个研究方向:匿名通信网络的网站指纹防御和僵尸网络的域名生成,以此来介绍对抗样本在防御任务和攻击任务中的应用。网站指纹攻击可以从网站中提取流量模式,…

    2021年7月26日
    2.4K
  • 对抗式多任务学习

          对抗式多任务学习是针对普通的多任务学习模型在共享特征提取时,可能会被特定任务的特定特征所污染的问题所提出的,…

    2019年8月13日
    2.2K
  • 超图对比学习

    超图对比学习是一种利用超图结构来捕捉节点间复杂关系,并通过对比学习机制来优化节点表示的学习方法。本次报告通过两个算法,从超图增强技术、对比损失形式和对比训练策略三个方面介绍超图对比…

    2024年8月19日
    1.8K