大语言模型的越狱攻击

主要探讨大语言模型的越狱攻击,阐述其研究背景、意义,历史与现状。而后涉及 EnDec和 ActorAttack 算法讲解,包含算法简介,以及算法的具体流程,通过实验对比展示其性能,总结了各自算法的特点、贡献与不足,展望未来发展方向。

大语言模型越狱攻击-贺晨阳-2024.12.1

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2024/12/19/%e5%a4%a7%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e7%9a%84%e8%b6%8a%e7%8b%b1%e6%94%bb%e5%87%bb/

(0)
bfsbfs
上一篇 2024年12月19日 下午8:02
下一篇 2024年12月19日 下午8:41

相关推荐

  • 数据样本的质量评估方法

    本报告主要介绍数据样本的质量评估方法。随着数据规模的不断扩大,如何有效评估数据样本的贡献成为提升模型性能和效率的关键问题。报告分析了当前领域内的主要评估方法,讨论了不同评估标准对模…

    2025年2月24日
    2.8K
  • 域自适应网络框架DANE

    本次报告介绍一种域自适应网络嵌入框架DANE,该框架解决了嵌入空间偏移和嵌入分布偏移的问题。在DANE中,来自多个网络的节点通过一组共享的可学习参数被编码为向量,以便向量共享对齐的…

    2021年3月1日
    2.9K
  • 智能体的工具调用攻击

    本报告探讨了大语言模型智能体工具调用机制中的安全漏洞,重点分析了两种新型攻击方法。AMA攻击通过黑盒迭代优化恶意工具的元数据,使其在语义合法的前提下显著提升被智能体选择的概率,在多…

    2026年1月26日
    2.8K
  • Transformer中的Multi-Head Attention

          注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中。随着注意力机制的…

    2018年12月17日
    2.7K
  • 动态网络嵌入

    许多真实世界的网络不是静态的而是处于不断进化的状态,随着网络的不断进化,一方面新节点需要被表示,另一方面,原始节点的嵌入表示就变得陈旧,需要被不断更新。本次学术报告首先介绍了动态网…

    2020年4月7日
    2.9K
  • 深度神经网络后门攻击

    人工智能模型安全是人工智能应用落地需要考量的重要问题,后门攻击威胁是人工智能模型安全的重要议题。本次学术报告以深度神经网络为后门攻击的对象,从深度神经网络训练的内部机理出发,通过了…

    2021年8月15日
    3.1K
  • Android应用安全检测

        Android应用在开发和发布初期可能存在各种原因导致的隐藏安全风险,这些安全风险如若不进行检测和修复,会给用户和开发者带来巨大的损…

    学术报告 2017年11月20日
    2.3K
  • 网络嵌入研究方法综述

    网络嵌入(Network Embedding)是针对网络中节点进行特征学习的一项新兴的研究任务,它旨在将网络中的节点表示成低维、实值、稠密的向量形式,使得得到的向量形式可以在向量空…

    2020年3月23日
    3.6K
  • EM算法的应用——GMM的参数估计

            EM(Expectation-maximization)算法是机器学习十大算法之一。…

    2014年12月11日
    4.6K
  • 基于网络一致性的对抗样本检测

    人工智能系统面临着多种安全威胁,其中对抗样本攻击被广泛应用于诸如计算机视觉、自然语言处理、音频处理以及恶意软件检测等多个领域。本文介绍了常见的对抗样本检测方法和原理。特别的,简单分…

    2020年12月20日
    2.9K