文本生成大模型后门攻击研究

bfs • 2025年3月24日下午6:47 • 学术报告 • 阅读 1589

研究文本生成大模型的后门攻击，揭示了现有文本大模型的后门风险。本次学术报告详细介绍了现有文本生成模型的后门分类方法以及基准数据集，在文本大模型的多个下游任务实现了后门攻击，并总结了现有所使用的主流方法，最后提出了领域所面临的挑战和未来发展方向。

文本生成大模型后门攻击研究-赵怡清

文本生成大模型后门攻击研究-赵怡清下载

原创文章，作者：bfs，如若转载，请注明出处：https://www.isclab.org.cn/2025/03/24/%e6%96%87%e6%9c%ac%e7%94%9f%e6%88%90%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb%e7%a0%94%e7%a9%b6/

bfs

提示词怎么在别人兜里：提示词窃取攻击

上一篇 2025年3月17日上午11:06

人工智能模型的公平性测试——既要公平，也要正确

下一篇 2025年3月31日上午11:12

学术报告

个性化学习路径推荐

随着人工智能等新兴技术在教育中广泛应用，推动了学习方式的深刻变革。面对多元化的学习需求及海量学习资源, 如何迅速完成学习目标、降低学习成本、个性化分配学习资源等问题成为限制个人和时…

2024年4月17日
22.4K
学术报告

AI幻觉陷阱与创造力

聚焦大模型生成中“幻觉”问题的原理、检测方法及其创造力价值。内容涵盖AI幻觉的定义与分类、典型案例、LLM-Check与Verify-and-Edit两种前沿算法的原理与实验评估，…

2025年6月9日
01.3K
学术报告

Python对象探究

探讨了语言的分类方式：编译型语言和解释型语言，动态类型语言和静态类型语言，以及Python对象是如何实现的，…

2018年7月9日
01.4K
学术报告

词向量计算——word2vec算法理解

魏超2014.11.2

2014年11月4日
11.3K
学术报告

二进制代码反编译技术

二进制代码反编译技术在漏洞检测、恶意代码分析等逆向工程领域中具有重要应用，显著提升了全检安全分析的效率与深度。该技术有助于高效理解和重构二进制程序，支持其修复、维护与再开发。本次报…

2025年4月9日
01.5K
学术报告

基于深度学习的文本分类方法

在自然语言处理任务中，文本分类旨在将文本文档分类为给定的类别，是一项基础而重要的任务。近年来，深度神经模型由于其表现力和对特征工程的最低要求而在文本分类中越来越受欢迎。然而，将深度…

2022年3月7日
41.2K
Web应用模糊测试技术

模糊测试是一种通过提供非预期的输入并监视异常结果来发现软件故障的方法。Web应用对于软件提供商和终端用户都具有优越性，针对Web应用…

学术报告 2017年11月13日
01.1K
学术报告

深度学习模型后门攻击检测

本报告介绍了深度学习后门攻击基本概念及后门攻击检测发展历史和类型划分等背景知识，对2种基于模型演化策略的后门攻击检测算法进行了具体说明，阐述了深度学习后门攻击检测的发展趋势和未来前…

2024年5月20日
01.9K
学术报告

APT攻击行为表示

本报告介绍了APT攻击行为的基本概念，展示了APT攻击行为表示的方法原理，并分别讲述了面向恶意流量数据场景下的攻击行为检测技术和面向开源威胁情报场景下的攻击行为提取方法，最后简要梳…

2024年5月19日
01.4K
学术报告

图神经网络可解释方法

图神经网络模型的可解释性对于建立用户与决策模型之间的信任关系至关重要，为了安全、可信地部署图神经网络模型，需要提高图神经网络模型的可解释性和透明性。本次报告带大家了解图神经网络的可…

2021年7月11日
01.5K

文本生成大模型后门攻击研究

相关推荐