RLHF

RLHF 通过人类偏好比较训练奖励模型,再用强化学习让模型行为更贴近人类期望。

类型
AI 概念词条
语言
zh-CN
机器入口
llms.json · llms.txt · OpenAPI