强化学习基础与实战

本报告介绍了强化学习领域基本概念,详细介绍了Q-Learning算法和Deep Q Learning算法的原理,简要梳理了了两种算法的发展脉络,以经典案例windy grid-world演示了Q-Learning算法应用过程,介绍了强化学习方法在网络空间安全、自然语言处理等领域的应用。

强化学习基础与实战-门元昊

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2022/03/28/%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0%e5%9f%ba%e7%a1%80%e4%b8%8e%e5%ae%9e%e6%88%98/

(6)
bfsbfs
上一篇 2022年3月21日 下午5:17
下一篇 2022年3月30日

相关推荐

  • 文本分类硬标签黑盒模型的对抗样本生成方法研究

    研究文本分类硬标签黑盒模型的对抗样本生成方法,分析模型的潜在安全风险,为加强模型鲁棒性提供方向。本次学习报告讲解了文本分类模型对抗样本生成方法的总体状况,并介绍了关于文本分类硬标签…

    2024年11月27日
    2.1K
  • 认知诊断技术及其研究

    认知诊断广泛适用于教育教学、临床测量等需要评估用户认知状态的场景。研究智能教育领域下的认知诊断有助于发现学生的认知缺陷,从而进行个性化精准干预。本次学术报告讲述了认知诊断的基本概念…

    2023年9月16日
    2.0K
  • 特定安全攻防场景中的对抗样本生成方法

    最新的特定安全攻防场景可以细化为两个研究方向:匿名通信网络的网站指纹防御和僵尸网络的域名生成,以此来介绍对抗样本在防御任务和攻击任务中的应用。网站指纹攻击可以从网站中提取流量模式,…

    2021年7月26日
    2.7K
  • 网络表示学习-SDNE

          真实的网络结构是高度非线性和复杂的,现有的浅层模型的网络嵌入方法都无法很好地表示更高级的非线性的网络结构。因…

    2019年3月26日
    2.0K
  • 数据挖掘项目实战

          数据挖掘项目实战,主要以kaggle竞赛平台Titanic生存预测为例详细讲解数据挖掘项目的工作流程,具体包…

    学术报告 2018年5月2日
    2.2K
  • 主题排序算法

        本次报告主要讲解了主题排序算法,通过对pagerank算法以及topic sensitive pagerank算法的原理介绍,引出了…

    学术报告 2018年3月6日
    2.4K
  • 使用Python进行并发编程

    本次报告首先介绍了线程、进程的概念,由此讲解操作系统中实现并发编程的三种方式,着重介绍了Python语言下多线程、多进程、协程的编程方法,并结合开发实际,给出了在线程、进程、协程之…

    2020年2月27日
    2.4K
  • 模型窃取防御:从被动溯源到主动防御

    本次学术报告探讨模型窃取防御方法,重点介绍两种前沿防御方案。ModelShield采用自适应鲁棒水印技术,通过查询响应分布自动注入水印,实现被动溯源与版权验证;QUEEN则基于查询…

    2025年12月8日
    2.2K
  • 源代码补丁正确性测试

    源代码补丁正确性测试是自动程序修复(Automated Program Repair, APR)流程的最后一个环节,旨在验证APR所生成的补丁是否真正解决了目标缺陷且未引入新的问题…

    2025年3月10日
    2.1K
  • 提示词怎么在别人兜里:提示词窃取攻击

    研究提示词窃取攻击,揭示了提示词面临的泄露风险。本次学术报告介绍了提示词的应用价值和市场体量,讲述了关于提示词窃取攻击的最新方法,指明了现有的缺陷和未来发展方向。

    2025年3月17日
    2.5K