大模型在微调阶段的后门攻击

随着大语言模型的快速发展与广泛应用,其安全问题日益凸显,后门攻击便是主要威胁之一。本次报告介绍了两种针对大模型微调阶段的后门攻击方法,它们分别通过确定目标生成条件和改变Token,提升攻击的隐蔽性与有效性。

大模型在微调阶段的后门攻击-满乐彤

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2025/11/24/%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%9c%a8%e5%be%ae%e8%b0%83%e9%98%b6%e6%ae%b5%e7%9a%84%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb/

(1)
bfsbfs
上一篇 2025年11月17日 下午5:28
下一篇 2025年11月25日 下午12:00

相关推荐

  • Padding–A CNN operation that cannot be ignored

    本次报告主要讲述了padding的种类及其影响,介绍了卷积网络的基本概念和性质、使用padding的主要原因等,详细讲解了特征偏移和信息侵蚀的概念、表现及解决方案,最后对paddi…

    2022年12月5日
    2.4K
  • 提高对抗鲁棒性的特征降噪方法

    当深度学习以惊人的准确性执行各种各样任务的同时,在图像分类等领域的深度神经网络却容易受到对抗样本的攻击,从而输出错误的预测结果。本次学术报告首先说明了对抗攻防的主要方法分类和残差网…

    2021年4月19日
    2.7K
  • 视频深度伪造及检测技术——攻与防

    摘要:本报告介绍了视频深度伪造的基本算法,针对算法中存在的3个问题,重点讲述了在小样本条件下的域迁移学习生成伪造视频,并通过攻防对抗的概念引出了伪造视频检测算法,阐明针对伪造视频中…

    2023年2月20日
    2.8K
  • 源代码安全补丁存在性测试

    本报告围绕“源代码安全补丁存在性测试”展开,聚焦于如何自动识别开源软件中的安全补丁,解决安全补丁与普通补丁混杂、厂商静默发布、攻击窗口缩短等问题,介绍了一种结构感知的检测方法——R…

    2025年7月21日
    2.4K
  • 大模型赋能自动化渗透测试技术

    本次报告围绕大模型赋能的自动化渗透测试技术展开,首先阐述了渗透测试的基本概念、研究背景和研究意义,然后介绍了大模型赋能的自动化渗透测试技术的研究现状和常见的agent框架。接着详细…

    2026年1月26日
    2.8K
  • 时序知识图谱推理方法

    时序知识图谱推理根据历史时序知识图谱中已知事实,预测查询中缺失的实体或关系,避免知识图谱不完整性对知识驱动系统造成的影响。本次学术报告首先讲解了时序知识图谱推理基本概念,然后详细介…

    2023年9月27日
    2.6K
  • 网络表示学习-SDNE

          真实的网络结构是高度非线性和复杂的,现有的浅层模型的网络嵌入方法都无法很好地表示更高级的非线性的网络结构。因…

    2019年3月26日
    2.3K
  • 代码变更表示学习技术

    代码变更表示学习技术通常将代码变更进行结构化或序列化的中间表示,并将中间表示输入到表示学习模型以获取代码变更中更细粒度的特征,是众多软件工程任务的重要环节之一。本次报告介绍了2类任…

    2023年10月23日
    2.4K
  • 词向量计算——word2vec算法理解

    魏超2014.11.2

    2014年11月4日
    2.4K
  • 基于知识库的命名实体识别

          基于统计的命名实体识别方法根据特征的获取方式,有神经网络和特征工程两个研究方向,实践表明来自知识库的词典特征…

    2019年7月18日
    2.7K