大模型在微调阶段的后门攻击

bfs • 2025年11月24日上午10:11 • 学术报告 • 阅读 4057

随着大语言模型的快速发展与广泛应用，其安全问题日益凸显，后门攻击便是主要威胁之一。本次报告介绍了两种针对大模型微调阶段的后门攻击方法，它们分别通过确定目标生成条件和改变Token，提升攻击的隐蔽性与有效性。

原创文章，作者：bfs，如若转载，请注明出处：https://www.isclab.org.cn/2025/11/24/%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%9c%a8%e5%be%ae%e8%b0%83%e9%98%b6%e6%ae%b5%e7%9a%84%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb/

bfs

对抗样本攻防的两种奇思妙想

上一篇 2025年11月17日下午5:28

2025年第22届信息安全与对抗技术竞赛“智能安全赛”获奖证书下载通知

下一篇 2025年11月25日下午12:00

学术报告

群体认知诊断技术研究

智慧教育系统的不断发展促进了在线学习的用户数量爆炸式增长，对于学生认知水平诊断要求不断提高，群体认知诊断技术能够帮助平台挖掘学习群体的共性需求，增进教学效果。本次学术报告介绍了群体…

2025年10月11日
03.1K
学术报告

强化学生个性的知识追踪

知识追踪是缓解基础教育普及需求和严重不足的教师数量之间矛盾的一个关键途径。目前，提高知识追踪的个性化水平是研究重点之一。本次报告介绍了两类强化学生个性的知识追踪技术，包括额外个性化…

2023年12月27日
03.0K
学术报告

增强认知诊断结果的可解释性

认知诊断通过挖掘学习者行为、心理和认知之间的关系，利用学习者的学习数据，对其认知状态进行综合评估和诊断，其输出结果，即学生对于不同知识概念的熟练程度应与实际情况相符，具有高度的可解…

2024年10月17日
03.2K
学术报告

面向生成模型的模型窃取方法

针对判别模型窃取及防御方法的研究日趋成熟，近期的研究表明，生成模型同样面临模型窃取威胁。本次学术报告重点介绍了关于生成模型的窃取方法的原理，以及其与判别模型窃取方法、评价指标的区别…

2022年7月19日
13.5K
学术报告

面向LLM Agent的提示注入攻击

本报告聚焦大模型Agent提示注入攻击研究，重点解析CrossInject跨模态攻击与ToolHijacker工具劫持两大提示注入攻击框架，CrossInject首次实现“视觉+文…

2026年6月22日
01.1K
学术报告

缓解多模态大语言模型的幻觉问题

该研究针对多模态大语言模型生成内容与输入信息不符的“幻觉”问题，提出两种缓解方法：OPERA在推理阶段通过惩罚过信任与回溯重分配机制减少幻觉；HACL在训练阶段引入幻觉文本作为困难…

2025年12月1日
04.7K
学术报告

基于深度学习的恶意流量检测方法

近年来，基于机器学习的算法在恶意流量检测领域中越来越流行，但此类算法通常使用浅层模型，在训练之前需要一组专家手工制作的特征来预处理数据。此类方法的主要问题是，在不同类型的场景下，手…

2020年12月27日
05.9K
学术报告

程序崩溃的故障定位方法

程序崩溃的故障定位方法通过统计调试或符号执行，自动推断出程序崩溃的根本原因。本次报告介绍了1个基于符号执行的方法、1个结合统计调试和符号执行的方法，旨在提高故障定位的准确性与效率，…

2025年1月12日
13.0K
学术报告

预训练在NLP的发展

自从深度学习火起来后，预训练过程就是做图像或者视频领域的一种比较常规的做法，有比较长的历史了，而且这种做法很有效，能明显促进应用的效果。那预训练在自然语言处理中优势怎样发展起来的呢…

2019年10月20日
03.2K
学术报告

符号执行简介

符号执行（Symbolic Execution）是一种程序分析技术。其可以通过分析程序来得到让特…

2019年1月2日
03.4K

大模型在微调阶段的后门攻击

相关推荐