差不多,但不甚具体。 本质差异在于: 【1】强化学习数据更序列化且是需反馈; 【2】强化学习target是估计所得; 【3】强化学习强调过程化,更有生命; 引用周志华《机器学习》 “但不同的是,在强化学习中并没有监督学习中的有标记的样本,换言之,没有人直接告诉机器在什么状态下应该做什么动作,只有等到最终结果揭晓,才能通过‘反思’之前的动作是否正确来进行学习,因此,强化学习在某种意义上可看作具有‘延迟标记信息’的监督学习问题”