LLM的强化学习

bfs • 2024 年 4 月 3 日 16:01 • 学术报告 • 阅读 581

ChatGPT问世以来，LLM百花齐放，对我们的生活产生了巨大的影响。然而LLM生成的内容存在信息泄露、无中生有等诸多隐患。通过强化学习技术我们可以将生成内容与人类偏好对齐，控制LLM的生成方向。本次学术报告主要讲解了强化学习在LLM中应用的现状，然后在PPO-max算法中对RLHF流程进行分析，并在RL4F算法中拓展其应用场景，最后对强化学习在LLM中的未来发展和功能进行解析。

数据挖掘-学术报告-LLM中的强化学习—让生成内容更加可控-杨宗源

数据挖掘-学术报告-LLM中的强化学习—让生成内容更加可控-杨宗源下载

原创文章，作者：BFS，如若转载，请注明出处：https://www.isclab.org.cn/2024/04/03/llm%e7%9a%84%e5%bc%ba%e5%8c%96%e5%ad%a6%e4%b9%a0/

LLM的强化学习

相关推荐

请登录