文本生成大模型后门攻击研究

bfs • 2025年3月24日下午6:47 • 学术报告 • 阅读 1613

研究文本生成大模型的后门攻击，揭示了现有文本大模型的后门风险。本次学术报告详细介绍了现有文本生成模型的后门分类方法以及基准数据集，在文本大模型的多个下游任务实现了后门攻击，并总结了现有所使用的主流方法，最后提出了领域所面临的挑战和未来发展方向。

文本生成大模型后门攻击研究-赵怡清

文本生成大模型后门攻击研究-赵怡清下载

原创文章，作者：bfs，如若转载，请注明出处：https://www.isclab.org.cn/2025/03/24/%e6%96%87%e6%9c%ac%e7%94%9f%e6%88%90%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb%e7%a0%94%e7%a9%b6/

bfs

提示词怎么在别人兜里：提示词窃取攻击

上一篇 2025年3月17日上午11:06

人工智能模型的公平性测试——既要公平，也要正确

下一篇 2025年3月31日上午11:12

学术报告

匮乏资源命名实体识别

NER作为自然语言处理中的一项基础任务，应用范围非常广泛。命名实体识别是许多任务的基本组成部分，并已被深度神经网络大大推进。目前NER只是在有限的领域和实体类型中取得了较好的成绩，…

2021年11月2日
11.5K
学术报告

学术论文评审意见生成方法研究

学术论文投稿数量的不断增长带来巨大审稿压力，而人工智能和大数据的发展为学术论文自动化评审提供了契机。本次学术报告介绍了学术论文评审意见生成的两种最新方法，为减轻审稿人负担、提高评审…

2025年9月22日
01.1K
学术报告

协议模糊测试方法

本次报告围绕协议模糊测试方法展开，从提升协议模糊测试效率和有效性上考虑，要满足以下三个层面内容：1、数据生成角度：生成的测试用例要符合协议规范；2、数据传输角度：生成的测试用例能够…

2026年3月1日
0358
学术报告

跨语言命名实体识别

跨语言命名实体识别是用源语言的标记数据训练NER模型，并在目标语言的测试数据上对其进行评估。其利用具有丰富实体标签的高资源(源)语言(如英语)的知识来克服低(零)资源(目标)语言的…

2024年5月18日
11.5K
假设检验（hypothesis testing）

　　假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法，其基本思想是应用小概率原理。在假设检验中常见的P值是进行检验决策的依据之一，反映某一事件发生的可能性大小。比较常…

学术报告 2017年10月13日
01.5K
学术报告

融合多模态交互及语义一致性建模的社交机器人检测

社交机器人模仿人类在Twitter等社交平台上的行为。数以百万计的机器人通常基于平台API，通过自动化程序控制，通过模仿真实用户以实现恶意目标，检测社交机器人对于净化网络空间环境具…

2023年7月14日
01.5K
学术报告

弱监督技术方法

当前监督学习技术已经取得了巨大的成功，但是值得注意的是，由于数据标注过程的成本太高，很多任务很难获得如全部真值标签这样的强监督信息。而无监督学习由于学习过程太过困难，它的发展缓慢。…

2022年2月21日
11.3K
学术报告

Bias-Variance trade-off

背景熟悉模式识别的童鞋都很清楚，在模式识别领域内存在许多的学习算法和技术。面对纷繁的算法，我们必然会产生疑问：究竟哪一个算法才是“最好的”。值的强调的是每个算法都有相应的先验假设…

2016年1月21日
01.9K
学术报告

音频事件识别参数优化方法

目前音频处理领域各种系统的参数优化研究，通常把系统的各个层次（一般包括特征提取、特征向量生成、模型训练等）割裂开来进行相互独立的参数寻优，再将独立寻优结果进行简单组合，构成系统的参…

2015年1月28日
01.4K
学术报告

提高对抗鲁棒性的特征降噪方法

当深度学习以惊人的准确性执行各种各样任务的同时，在图像分类等领域的深度神经网络却容易受到对抗样本的攻击，从而输出错误的预测结果。本次学术报告首先说明了对抗攻防的主要方法分类和残差网…

2021年4月19日
01.6K

文本生成大模型后门攻击研究

相关推荐