强化学习基础与实战

本报告介绍了强化学习领域基本概念,详细介绍了Q-Learning算法和Deep Q Learning算法的原理,简要梳理了了两种算法的发展脉络,以经典案例windy grid-world演示了Q-Learning算法应用过程,介绍了强化学习方法在网络空间安全、自然语言处理等领域的应用。

强化学习基础与实战-门元昊

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2022/03/28/%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0%e5%9f%ba%e7%a1%80%e4%b8%8e%e5%ae%9e%e6%88%98/

(6)
bfsbfs
上一篇 2022年3月21日 下午5:17
下一篇 2022年3月30日

相关推荐

  • 基于图的知识追踪方法研究

    随着智慧教育系统(Intelligent Tutoring System, ITS)的快速发展,ITS以其时空约束少、便捷程度高和个性化定制学习的优势,在现代教育事业中获得广泛关注…

    2023年5月15日
    1.8K
  • 人工智能生成内容检测

    本学术报告概述了人工智能生成内容检测的背景、挑战及两种核心算法——DetectGPT和DeTeCtive。重点阐述了基于概率曲率的零样本检测方法和多级对比学习框架,分析了其原理、优…

    2025年1月5日
    2.0K
  • AI模型计量&图增强的幻觉检测

    本次报告以小米SU7等案例引入AI模型计量,概述计量内涵、发展现状与指标体系,并梳理数据评测、算法评测与人工评测方法;进一步聚焦图增强幻觉检测,讲解LapEigvals注意力谱特征…

    2026年3月2日
    739
  • 文本分类硬标签黑盒模型的对抗样本生成方法研究

    研究文本分类硬标签黑盒模型的对抗样本生成方法,分析模型的潜在安全风险,为加强模型鲁棒性提供方向。本次学习报告讲解了文本分类模型对抗样本生成方法的总体状况,并介绍了关于文本分类硬标签…

    2024年11月27日
    1.5K
  • 基于模型修改的深度学习后门攻击

    本报告介绍了深度学习后门攻击的基本概念、类型划分等背景知识,对一种基于模型权重修改和一种基于模型结构修改的后门攻击算法进行了具体说明,阐述了对于深度学习后门攻击领域现状的未来发展的…

    2023年3月20日
    2.0K
  • 音频事件识别参数优化方法

    目前音频处理领域各种系统的参数优化研究,通常把系统的各个层次(一般包括特征提取、特征向量生成、模型训练等)割裂开来进行相互独立的参数寻优,再将独立寻优结果进行简单组合,构成系统的参…

    2015年1月28日
    1.6K
  • APT攻击行为表示

    本报告介绍了APT攻击行为的基本概念,展示了APT攻击行为表示的方法原理,并分别讲述了面向恶意流量数据场景下的攻击行为检测技术和面向开源威胁情报场景下的攻击行为提取方法,最后简要梳…

    2024年5月19日
    1.7K
  • 小样本实体关系抽取方法

    信息抽取是自然语言处理中的重要组成部分,特别是在当今信息化社会中,从海量数据中抽取出有用的信息显得格外有意义。实体关系抽取是信息抽取的基础任务。现实生活中存在着长尾分布的问题,这导…

    2021年10月21日
    2.4K
  • 域自适应网络框架DANE

    本次报告介绍一种域自适应网络嵌入框架DANE,该框架解决了嵌入空间偏移和嵌入分布偏移的问题。在DANE中,来自多个网络的节点通过一组共享的可学习参数被编码为向量,以便向量共享对齐的…

    2021年3月1日
    1.9K
  • 联邦学习的后门防御方法

    本报告介绍了联邦学习领域后门攻击与防御的基本概念、联邦学习的训练流程,分别聚合规则和聚类规则的后门防御算法进行具体说明,阐述了联邦学习领域后门攻击与防御的发展方向及个人思考。

    2023年4月9日
    2.1K