大模型越狱攻击的检测技术

bfs • 2025年5月8日下午6:14 • 学术报告 • 阅读 2743

本次报告围绕大模型越狱攻击的检测技术展开，首先阐述了越狱检测的定义，然后介绍了常见的越狱攻击以及检测技术的研究现状。接着详细介绍了GradSafe和JailGuard两种主流方法，包括各自的算法设计、优化目标及实验效果，并总结了当前主流方法存在的问题，最后展望了未来越狱攻击检测技术发展的可能方向。

大模型越狱攻击的检测技术-贺晨阳

大模型越狱攻击的检测技术-贺晨阳下载

原创文章，作者：bfs，如若转载，请注明出处：https://www.isclab.org.cn/2025/05/08/%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%b6%8a%e7%8b%b1%e6%94%bb%e5%87%bb%e7%9a%84%e6%a3%80%e6%b5%8b%e6%8a%80%e6%9c%af/

bfs

关于举办第22届信息安全与对抗技术竞赛（ISCC）贵州赛区省赛的通知

上一篇 2025年5月1日

大模型赋能的渗透测试技术

下一篇 2025年5月13日

学术报告

无监督关键词提取方法介绍

关键词提取技术是通过计算机程序从文档中自动提取重要性和主题性的词或短语的自动化技术，该技术在图书馆学、情报学和自然语言处理等领域应用广泛。目前关键词提取技术主要分为无监督和有监督这…

2020年3月16日
13.3K
学术报告

命名实体识别简介

2014年10月18日
02.8K
学术报告

深度学习模型校准技术

深度学习模型校准技术是模型预测可靠性的重要保障手段之一，其通过正则化或后处理方法调节模型对样本实例上的置信度，使其与预测的真实概率良好匹配。本次报告介绍了深度学习模型校准的基本概念…

2024年7月2日
02.5K
学术报告

程序崩溃的故障定位方法

程序崩溃的故障定位方法通过统计调试或符号执行，自动推断出程序崩溃的根本原因。本次报告介绍了1个基于符号执行的方法、1个结合统计调试和符号执行的方法，旨在提高故障定位的准确性与效率，…

2025年1月12日
12.0K
学术报告

大模型赋能的渗透测试技术

本次报告围绕大模型赋能的渗透测试技术展开，首先阐述了渗透测试的基本概念、研究背景和研究意义，然后介绍了传统自动化渗透测试方法的特点与优劣势，并介绍了大模型赋能的渗透测试方法的研究现…

2025年5月13日
22.9K
学术报告

显式周期引导的长时序列预测

该研究提出显式周期引导的长期时间序列预测方法，核心包括Periodformer和CycleNet两种模型。Periodformer通过周期注意力机制显式捕捉长期周期性模式，降低计算…

2025年11月3日
01.9K
学术报告

Dropout随机失活

具有大量参数的深度神经网络是非常强大的机器学习系统。然而，在这样复杂的网络中，过拟合的问题难以解决。复杂的网络结构和缓慢的运行速度导致我们很难在测试时通过组合许多不同大型神经网络的…

2022年1月21日
02.1K
学术报告

提高对抗鲁棒性的特征降噪方法

当深度学习以惊人的准确性执行各种各样任务的同时，在图像分类等领域的深度神经网络却容易受到对抗样本的攻击，从而输出错误的预测结果。本次学术报告首先说明了对抗攻防的主要方法分类和残差网…

2021年4月19日
02.5K
学术报告

机器学习中的数据不平衡问题

数据不平衡问题是指一个类别的数据个数远远少于另一个类别的数据个数，通常这种问题被称为“数据不平衡”问题，在这…

2018年12月17日
02.1K
学术报告

如何优雅地进行模型训练

本次报告介绍了机器学习模型训练过程中的显存优化方法。首先介绍了深度学习框架的显存利用机制，随后结合原理和具体实例讲解了“代码级”和“框架级”显存优化方法，引导大家在实际科研过程中更…

2022年5月5日
32.6K

大模型越狱攻击的检测技术

相关推荐