关于rm中lm loss计算的疑问 #48

DZ9 · 2024-02-05T07:35:21Z

在reward_trainer.py这里，删除了lm_logits中最后一个token的概率分布，但是在下面的label里面是删除了第一个词，想问下这里是怎么对应的呢

refrain-wbh · 2024-04-28T06:03:18Z

这是因为，logit是输出，而label or loss mask是输入。decoder架构（例如llama）预测next token，因此输入的token和输出的next token是对应关系。

Provide feedback