基于大模型微调的后门攻击

本学术报告围绕大模型微调中的后门攻击问题展开。内容涵盖:后门攻击的基本原理与主流微调方法;两种新型攻击技术的设计与危害分析;以及针对现有防御体系的不足与盲区,展望后门攻击的未来演进方向。报告旨在分享微调生态下的潜在风险,为后续相关安全研究提供技术梳理与启发思考。

2026060102424725

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2026/06/01/%e5%9f%ba%e4%ba%8e%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%be%ae%e8%b0%83%e7%9a%84%e5%90%8e%e9%97%a8%e6%94%bb%e5%87%bb/

(0)
bfsbfs
上一篇 2026年6月1日 上午10:41
下一篇 2026年6月8日 上午9:55

相关推荐

  • 半监督学习研究综述

    半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。本次报告首先讲述了半监督学…

    2020年3月3日
    3.5K
  • Cache侧信道攻击与防御

    本报告讲述了cache侧信道攻击与防御基本分类及理论基础,给出了基于冲突和基于访问两类侧信道攻击和反制措施的基本概念,并对介绍基于映射随机化和基于隔离两类防御方法的文献进行了详细介…

    2021年11月23日
    4.0K
  • 内部威胁检测方法

    近年来,内部(insider)攻击,包括组织信息系统破坏、信息盗窃、电子欺诈等,具有很强的隐蔽性和破坏性,对个人、企业和国家安全构成了巨大的威胁。因此,我们应该更加关注内部威胁的研…

    2021年10月27日
    2.8K
  • 成员推理攻击和防御

    机器学习已经演化为了一种服务模式,即机器学习即服务模式。互联网公司或提供模型训练接口,或提供模型预测接口给用户以提供相应的服务。但是,在提供服务的整个过程中,机器学习模型不可避免的…

    2021年6月24日
    4.4K
  • 网络表示学习

          这次报告讲解了网络表示学习的基本概念,对LINE算法的原理进行了深入讲解,并对网络表示学习算法的应用场景做了…

    2018年9月17日
    2.7K
  • 深度神经网络鲁棒性评估方法

    深度学习模型具有高度非线性和特征空间抽象等特性,内部决策逻辑难以解释,导致其实际应用严重受限。本次报告从深度神经网络可解释性的基本概念出发,对常见的解释方法进行简介,并介绍了一篇将…

    2023年11月30日
    2.6K
  • 缓解多模态大语言模型的幻觉问题

    该研究针对多模态大语言模型生成内容与输入信息不符的“幻觉”问题,提出两种缓解方法:OPERA在推理阶段通过惩罚过信任与回溯重分配机制减少幻觉;HACL在训练阶段引入幻觉文本作为困难…

    2025年12月1日
    4.0K
  • Deep Learning Backdoor Attacks Detection

    The susceptibility of deep neural networks to backdoor or trojan attacks has been demonstr…

    2023年6月26日
    2.4K
  • 网络嵌入研究方法综述

    网络嵌入(Network Embedding)是针对网络中节点进行特征学习的一项新兴的研究任务,它旨在将网络中的节点表示成低维、实值、稠密的向量形式,使得得到的向量形式可以在向量空…

    2020年3月23日
    3.8K
  • EM算法的应用——GMM的参数估计

            EM(Expectation-maximization)算法是机器学习十大算法之一。…

    2014年12月11日
    4.8K