大模型越狱攻击的检测技术

bfs • 2025年5月8日下午6:14 • 学术报告 • 阅读 3919

本次报告围绕大模型越狱攻击的检测技术展开，首先阐述了越狱检测的定义，然后介绍了常见的越狱攻击以及检测技术的研究现状。接着详细介绍了GradSafe和JailGuard两种主流方法，包括各自的算法设计、优化目标及实验效果，并总结了当前主流方法存在的问题，最后展望了未来越狱攻击检测技术发展的可能方向。

大模型越狱攻击的检测技术-贺晨阳

大模型越狱攻击的检测技术-贺晨阳下载

原创文章，作者：bfs，如若转载，请注明出处：https://www.isclab.org.cn/2025/05/08/%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%b6%8a%e7%8b%b1%e6%94%bb%e5%87%bb%e7%9a%84%e6%a3%80%e6%b5%8b%e6%8a%80%e6%9c%af/

bfs

关于举办第22届信息安全与对抗技术竞赛（ISCC）贵州赛区省赛的通知

上一篇 2025年5月1日

大模型赋能的渗透测试技术

下一篇 2025年5月13日

学术报告

语义级代码克隆检测

代码克隆（Code Clone），是指存在于代码库中两个及两个以上相同或者相似的源代码片段，是软件开发中的常见现象。近年来，针对Ⅳ型克隆即语义级克隆的检测技术受到了广泛关注。主要…

2022年10月11日
13.7K
学术报告

人工智能生成内容检测

本学术报告概述了人工智能生成内容检测的背景、挑战及两种核心算法——DetectGPT和DeTeCtive。重点阐述了基于概率曲率的零样本检测方法和多级对比学习框架，分析了其原理、优…

2025年1月5日
13.7K
学术报告

& Unsorted bin attack

简单介绍了堆的管理与分配，主要讲述了堆上两种典型的攻击方式，即fast bin attack 和 Unsor…

2019年1月15日
03.2K
学术报告

使用远程服务器搭建深度学习开发环境

本次报告首先讲解了虚拟化技术的原理和使用方式，结合多种虚拟化方式的特点，介绍了实验室内部的选择和使用情况。之后以实验室常用的系统为例，讲解了使用远程服务器搭建深度学习开发环境的过程…

2020年2月27日
13.4K
学术报告

网络爬虫技术介绍

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网…

2019年4月3日
03.1K
学术报告

Transformer中的Multi-Head Attention

注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的…

2018年12月17日
03.3K
学术报告

域自适应网络框架DANE

本次报告介绍一种域自适应网络嵌入框架DANE，该框架解决了嵌入空间偏移和嵌入分布偏移的问题。在DANE中，来自多个网络的节点通过一组共享的可学习参数被编码为向量，以便向量共享对齐的…

2021年3月1日
23.5K
学术报告

敏感文本数据脱敏方法

本次报告对文本数据的脱敏方法展开介绍，介绍了目前常用的文本数据脱敏方法，重点讲解了文本数据泛化脱敏的基本概念，详细阐述了文本泛化脱敏方法和文本差分隐私噪声扰动脱敏方法，最后对比了文…

2022年5月30日
04.6K
学术报告

软件漏洞注入技术

随着计算机技术的发展，漏洞威胁问题已然日渐严峻，高效、准确的漏洞检测技术对于漏洞的发现和防护都至关重要，但目前常用的检测算法面临漏洞数据集少、信息不准确、构建成本高等问题，所以一个…

2023年9月27日
03.2K
学术报告

智能化系统的安全测试方法

智能化系统越来越多地部署在对安全性至关重要的领域中，包括无人驾驶汽车和恶意软件检测。在这些领域中，系统行为的正确性和可预测性对于极端案例输入是至关重要的。软件测试作为软件部署前的重…

2021年3月23日
33.7K

大模型越狱攻击的检测技术

相关推荐