大语言模型的越狱攻击

主要探讨大语言模型的越狱攻击,阐述其研究背景、意义,历史与现状。而后涉及 EnDec和 ActorAttack 算法讲解,包含算法简介,以及算法的具体流程,通过实验对比展示其性能,总结了各自算法的特点、贡献与不足,展望未来发展方向。

大语言模型越狱攻击-贺晨阳-2024.12.1

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2024/12/19/%e5%a4%a7%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e8%b6%8a%e7%8b%b1%e6%94%bb%e5%87%bb/

(0)
bfsbfs
上一篇 2024年12月19日 下午8:02
下一篇 2024年12月19日 下午8:41

相关推荐

  • 简述对抗样本检测方法

          对抗样本会的存在严重威胁到机器学习模型的输出准确性。目前最常用的对抗样本生成方法是FGSM,其通过在沿着损失…

    2018年10月17日
    3.3K
  • 降维算法(二)—— MDS

    2014年10月22日
    1.2K
  • 机器学习中的多分类问题

          机器学习在现实中常常遇到多分类问题,而一些优秀的二分类学习算法(如逻辑回归,SVM等等)不支持多分类任务。一…

    2019年4月21日
    1.4K
  • 表格数据生成:GAN模型的演进与未来

    表格数据生成能为深度学习扩充不平衡数据,同时也能避免隐私问题,研究如何生成高保真表格数据具有重要意义。本次报告分析了各个生成模型的优劣,以及GAN在表格数据领域的创新思路。

    2023年8月15日
    1.6K
  • 基于网络流量的设备识别

    介绍了设备识别的发展历史、各层协议的特征及其优劣性,对两篇关于内网、外网识别的高水平文献进行了讲解,对比了设备识别的主要研究方向,以期帮助初学者快速了解领域内的动态及发展前景。

    2020年10月8日
    2.4K
  • 主题排序算法

        本次报告主要讲解了主题排序算法,通过对pagerank算法以及topic sensitive pagerank算法的原理介绍,引出了…

    学术报告 2018年3月6日
    1.6K
  • Boosting Methods

      集成学习是机器学习领域中提升单一模型学习效果的典型方法,而Boosting则是集成学习中常用且效果良好的算法之一。通过将Weak learner巧妙地组合成Strong lea…

    学术报告 2017年9月14日
    1.3K
  • HinDroid: An Intelligent Android Malware Detection System Based on Structured Heterogeneous Information Network

          Android恶意软件泛滥,及时准确发现恶意软件有着重要的意义。本文介绍了一种基于异构信息网络的智能andr…

    2018年11月18日
    1.4K
  • 虚拟化云平台异常行为检测方法

    本报告对虚拟化云平台面临的安全威胁与挑战进行介绍,阐述了可用于云平台虚拟机安全检测的系统数据源,重点介绍了利用系统调用序列、系统运行日志的虚拟机异常检测方法,并且概要性介绍了多种序…

    2022年5月9日
    1.5K
  • 多视角深度学习

    多视角即从各种不同的角度观察同一事物 ,在深度学习中即引入一个函数去模型化特定的视角,并且利用相同输入的冗余视角去联合优化所有函数,达到更好的模型效果。多视角学习可应用于大多数数据…

    2021年7月18日
    1.6K