文本生成大模型后门攻击研究

bfs • 2025年3月24日下午6:47 • 学术报告 • 阅读 3626

研究文本生成大模型的后门攻击，揭示了现有文本大模型的后门风险。本次学术报告详细介绍了现有文本生成模型的后门分类方法以及基准数据集，在文本大模型的多个下游任务实现了后门攻击，并总结了现有所使用的主流方法，最后提出了领域所面临的挑战和未来发展方向。

文本生成大模型后门攻击研究-赵怡清

文本生成大模型后门攻击研究-赵怡清下载

原创文章，作者：bfs，如若转载，请注明出处：https://www.isclab.org.cn/2025/03/24/%e6%96%87%e6%9c%ac%e7%94%9f%e6%88%90%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb%e7%a0%94%e7%a9%b6/

bfs

提示词怎么在别人兜里：提示词窃取攻击

上一篇 2025年3月17日上午11:06

人工智能模型的公平性测试——既要公平，也要正确

下一篇 2025年3月31日上午11:12

学术报告

时序知识图谱推理

着大数据和人工智能技术的飞速发展，知识图谱已成为表示和存储结构化知识的重要工具，其中时序知识图谱则进一步强调了事件随时间演变的重要性。本次学术报告致力于讲解时序知识图谱推理方法，重…

2024年5月18日
03.5K
走近特定音频识别（之三）—— 检索 Vs 识别

在说明计算机如何进行特定音频识别这个问题之前，我们有必要对两个我们经常接触到的概念加以区分——“检索”和“识别”。刚刚接触音频信号处理的朋友们常常会混淆这两个概念，本人刚…

学术报告 2014年10月25日
02.9K
学术报告

基于图的知识追踪方法研究

随着智慧教育系统（Intelligent Tutoring System, ITS）的快速发展，ITS以其时空约束少、便捷程度高和个性化定制学习的优势，在现代教育事业中获得广泛关注…

2023年5月15日
03.4K
学术报告

基于大模型微调的学术论文评审意见生成方法

大语言模型为自动化评审提供了发展契机，但通用AI模型在进行初步筛查和生成评审报告时，普遍存在积极性偏差、知识幻觉以及评价缺乏深度的缺陷。本次学术报告结合DeepReviewer和R…

2026年4月21日
03.2K
学术报告

提示词怎么在别人兜里：提示词窃取攻击

研究提示词窃取攻击，揭示了提示词面临的泄露风险。本次学术报告介绍了提示词的应用价值和市场体量，讲述了关于提示词窃取攻击的最新方法，指明了现有的缺陷和未来发展方向。

2025年3月17日
13.6K
学术报告

即时缺陷预测技术研究

本报告讲述了即时软件缺陷预测领域的基本概念，通过详细介绍集成了专家特征和语义特征的变更级软件缺陷预测和缺陷定位模型，启发思考通过结合专家特征和代码行上下文语义特征，提高变更级软件缺…

2022年12月13日
03.5K
学术报告

基于行为语义分析的android恶意软件分析方法

Android恶意软件对社会造成较大危害。为此，本文介绍了一种基于关联行为分析的Android恶意软件检测系统，该方法具有较强的行为表征能力，能有效的应对各种进化变异的恶意软件。

2019年8月13日
23.6K
学术报告

面向深度学习模型的鲁棒性解释方法研究

深度学习模型的鲁棒性解释方法旨在提升模型在面对输入扰动或对抗攻击时的解释一致性，是增强模型可信性和应用价值的重要研究方向。本次学术报告介绍了该领域的研究背景与发展现状，重点阐述了M…

2024年12月19日
13.0K
学术报告

隐私保护的领域自适应迁移学习方法

本报告讲述了隐私计算技术体系的整体架构及主要理论，给出了迁移学习及领域自适应问题的基本概念，通过详细介绍隐私保护政策下最新的去中心化无监督领域自适应论文以及基于隐私保护的模型联邦个…

2021年10月11日
23.3K
学术报告

跨语言命名实体识别

跨语言命名实体识别是用源语言的标记数据训练NER模型，并在目标语言的测试数据上对其进行评估。其利用具有丰富实体标签的高资源(源)语言(如英语)的知识来克服低(零)资源(目标)语言的…

2024年5月18日
13.5K

文本生成大模型后门攻击研究

相关推荐