SFT 监控信号太强会导致人们实际上欺骗 案,但注释者不知道。其次,RLHF 给出了一个大模型,它“知道”它“真的不知道”。 RLHF过程不仅帮助模型理解不确定性,更重要的是,RLHF帮助模型提高推理能力。只有经过前后双重实验,才能判断这个药对头痛有效。如果只有正面的例子,比如病人吃了感冒药,感冒好转了,这并不能证明感冒药能治感冒。这只能说明感冒药物与患者感冒的改善之间存在一定的相关性。
RLHF 成功地使用了负 巴拿马电话号码表 数据,使模型有机会真正理解因果关系。综上所述,RLHF有以下优点: 使用负信号进行比较学习,可以帮助模型通过比较过程减少幻觉。 强化学习不是一个固定的过程。它让模型随着能力的不断提升不断提出问题、提供答案、做出决策,让模型不断主动探索当前能力的极限,不断拓展边界。 这两个因素共同作用,形成反事实推理的作用,可以释放因果学习的巨大潜力,赋予模型更强的推理能力。 .5 PRM 和 ORM PRM(过程奖励模型)奖励良好的思维步骤,而不仅仅是正确的结果。
这更接近人类的学习和推理,通常通过使用 COT 来表示每个步骤的推理和评分过程来实现。这要归功于法学硕士的语义理解能力。传统的RL中,我们根据最终的结果进行评分,评分模型称为ORM(结果奖励模型),而随着LLM的专门训练成为过程验证者,新的评分模型称为PRM,经常获得经过;辅修法学硕士的微调。 OpenAI的逐步验证也是近期最重要的工作之一。他们训练的 PRM 在解决 MATH 数据集测试集上 78.% 的问题方面优于 ORM。