AI123Box
/
AI 知识百科
/ RLHF
RLHF
RLHF 通过人类偏好比较训练奖励模型,再用强化学习让模型行为更贴近人类期望。
类型
AI 概念词条
语言
zh-CN
机器入口
llms.json
·
llms.txt
·
OpenAPI
相关阅读
对齐
查看相关 AI 概念、工具和学习路径。
强化学习
查看相关 AI 概念、工具和学习路径。
大语言模型
查看相关 AI 概念、工具和学习路径。