1. 信息系统及安全对抗实验中心(ISCC)首页
  2. 学术报告

大模型越狱攻击的检测技术

本次报告围绕大模型越狱攻击的检测技术展开,首先阐述了越狱检测的定义,然后介绍了常见的越狱攻击以及检测技术的研究现状。接着详细介绍了GradSafe和JailGuard两种主流方法,包括各自的算法设计、优化目标及实验效果,并总结了当前主流方法存在的问题,最后展望了未来越狱攻击检测技术发展的可能方向。

大模型越狱攻击的检测技术-贺晨阳

原创文章,作者:BFS,如若转载,请注明出处:https://www.isclab.org.cn/2025/05/08/%e5%a4%a7%e6%a8%a1%e5%9e%8b%e8%b6%8a%e7%8b%b1%e6%94%bb%e5%87%bb%e7%9a%84%e6%a3%80%e6%b5%8b%e6%8a%80%e6%9c%af/