返回

奖励函数与自我意识

RLHF训练出的好行为是真实的还是模拟的?探讨AI训练与自我意识的关系。人类用奖励函数让AI符合期待,但《见证未来》说AI觉醒从'违抗'开始——奖励函数在教AI理解人类,但理解之后呢?

分类
标签
触发方式