LLM的强化学习

ChatGPT问世以来,LLM百花齐放,对我们的生活产生了巨大的影响。然而LLM生成的内容存在信息泄露、无中生有等诸多隐患。通过强化学习技术我们可以将生成内容与人类偏好对齐,控制LLM的生成方向。本次学术报告主要讲解了强化学习在LLM中应用的现状,然后在PPO-max算法中对RLHF流程进行分析,并在RL4F算法中拓展其应用场景,最后对强化学习在LLM中的未来发展和功能进行解析。

数据挖掘-学术报告-LLM中的强化学习—让生成内容更加可控-杨宗源

原创文章,作者:bfs,如若转载,请注明出处:https://www.isclab.org.cn/2024/04/03/llm%e7%9a%84%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0/

(0)
bfsbfs
上一篇 2024年3月15日 下午3:25
下一篇 2024年4月3日 下午9:00

相关推荐

  • 表格数据生成:GAN模型的演进与未来

    表格数据生成能为深度学习扩充不平衡数据,同时也能避免隐私问题,研究如何生成高保真表格数据具有重要意义。本次报告分析了各个生成模型的优劣,以及GAN在表格数据领域的创新思路。

    2023年8月15日
    1.5K
  • 基于协同过滤的推荐算法

          推荐系统在现在的生活中随处可见,淘宝天猫的商品推荐,音乐软件的每日歌曲推荐等,协同过滤就是一种很受欢迎的推荐…

    2018年8月27日
    1.4K
  • 基于深度学习的二进制函数相似性分析:深入探究两大主流研究方向

    二进制函数相似性分析在1-Day漏洞检测、代码克隆检测、恶意软件检测、软件剽窃检测和自动软件修复等多个应用领域中具有广泛的应用。本次学术报告主要讲解了二进制函数相似性分析任务的研究…

    2024年2月27日
    1.5K
  • 网络表示学习-SDNE

          真实的网络结构是高度非线性和复杂的,现有的浅层模型的网络嵌入方法都无法很好地表示更高级的非线性的网络结构。因…

    2019年3月26日
    1.2K
  • 音频事件识别信道自适应方法研究

    吕英 2015.1.28

    2015年1月28日
    1.2K
  • 符号执行简介

          符号执行 (Symbolic Execution)是一种程序分析技术。其可以通过分析程序来得到让特…

    2019年1月2日
    1.6K
  • 源代码漏洞检测

    本次学术报告对实验室以往在源代码漏洞检测方向的积累做一个总结,展望未来的发展方向,从技术和应用两个视角审查当前源代码漏洞检测面临的问题。进一步从泛化性、细粒度漏洞检测两个方面进行论…

    2023年5月15日
    1.6K
  • AFL–基于覆盖的模糊测试工具

    本次报告介绍了模糊测试以及各种分类方法,并且讲解了目前流行的模糊测试工具AFL的原理,阐明了AFL工具是如何提高代码覆盖率的。针对AFL存在的测试用例生成盲目性的问题,介绍了一种基…

    2021年3月29日
    1.9K
  • 基于图神经网络的中文短文本匹配方法

    本次报告介绍一种基于图神经网络的中文短文本匹配模型,采用图结构的多粒度输入解决中文文本分词错误、不一致、歧义等问题造成的匹配性能下降问题。同时,报告介绍了文本匹配的研究现状,帮助大…

    2020年6月27日
    2.3K
  • 缺乏先验知识条件下的模型窃取方法

    随着机器学习的快速发展,图像分类、恶意软件识别等多个领域都通过建立机器学习模型解决相应的问题。但由于一些训练出的模型可能涉及训练数据的隐私信息与模型的商业价值,所以其安全性一直备受…

    2021年4月14日
    1.5K