大模型越狱攻击的检测技术

bfs • 2025年5月8日下午6:14 • 学术报告 • 阅读 1469

本次报告围绕大模型越狱攻击的检测技术展开，首先阐述了越狱检测的定义，然后介绍了常见的越狱攻击以及检测技术的研究现状。接着详细介绍了GradSafe和JailGuard两种主流方法，包括各自的算法设计、优化目标及实验效果，并总结了当前主流方法存在的问题，最后展望了未来越狱攻击检测技术发展的可能方向。

大模型越狱攻击的检测技术-贺晨阳

大模型越狱攻击的检测技术-贺晨阳下载

原创文章，作者：bfs，如若转载，请注明出处：https://www.isclab.org.cn/2025/05/08/%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%b6%8a%e7%8b%b1%e6%94%bb%e5%87%bb%e7%9a%84%e6%a3%80%e6%b5%8b%e6%8a%80%e6%9c%af/

bfs

关于举办第22届信息安全与对抗技术竞赛（ISCC）贵州赛区省赛的通知

上一篇 2025年5月1日

大模型赋能的渗透测试技术

下一篇 2025年5月13日

学术报告

主动学习在医学图像分析中的应用

主动学习也叫做询问学习或最佳实验设计，它是机器学的分支，更人工智能。主要的假设是是否学习算法是可以去选择先要…

2018年8月20日
0964
学术报告

设计模式简介

需求频繁变化是软件设计的基本特征，提升软件的可复用性、可维护性、可扩展性是软件设计的重要目标。以封装、继承和…

2019年4月30日
0978
学术报告

隧道流量识别研究

本文介绍两种隧道流量识别方法：DecETT方法构建不同的损失解耦隧道流协议特征和应用语义特征，实现AF检测；Graphtunnel方法构建DNS递归解析图进行DNS隧道流量监测。未…

2026年2月3日
0457
学术报告

基于图结构处理的文本生成

文本生成技术是自然语言处理中一个重要的研究领域，具有广阔的应用前景。传统文本生成的Seq2Seq框架不能有效地利用原始语料中的语义信息，而Graph2Seq模型可以丰富文本的语义知…

2022年2月28日
11.2K
学术报告

源代码自动化编辑方法

代码自动编辑任务通过应用频繁出现的编辑模式对现有代码进行修改，能够提升软件开发的效率。CODIT方法将代码编辑过程建模为树结构变换和标记生成两个阶段。MODIT方法输入整合需要编辑…

2022年7月10日
01.1K
学术报告

FNN模型正确性测试及测试样本生成

FNN模型被广泛应用于自动驾驶、医疗诊断等安全关键的领域，因此需要测试模型的正确性，及时发现模型的缺陷并进行模型的修复与再训练。本次学术报告介绍了FNN模型正确性测试中遇到的两个关…

2024年1月26日
01.1K
学术报告

大规模多标签分类方法

近年来，随着互联网技术的高速发展和数据规模的快速增长、大数据的应用，多标签分类应用场景越来越多，如电子商务中的商品分类、网页标签、新闻标注、蛋白质功能分类、音乐分类、语义场景分类等…

2020年12月13日
22.7K
学术报告

即时缺陷预测技术研究

本报告讲述了即时软件缺陷预测领域的基本概念，通过详细介绍集成了专家特征和语义特征的变更级软件缺陷预测和缺陷定位模型，启发思考通过结合专家特征和代码行上下文语义特征，提高变更级软件缺…

2022年12月13日
01.4K
学术报告

关系抽取之远程监督

远程监督方法用于关系抽取任务，会给数据集带来噪声样本，为此，本文介绍了两种基于多示例学习的去噪方法，能够有效的去除训练集中存在的噪声样本。

2019年8月24日
11.2K
学术报告

针对文本嵌入模型的模型反演攻击方法研究

研究针对文本嵌入模型的模型反演攻击，揭示了自然语言处理领域面临的隐私泄露风险。本次学术报告介绍了关于文本嵌入模型模型反演攻击的最新方法，并指明了现有的缺陷和未来发展方向。

2024年11月5日
01.3K

大模型越狱攻击的检测技术

相关推荐