价值函数和Token
社会强化学习可以看作是独立强化学习的推广,是独立强化学习与社会模型或经济模型的结合。由于采用社会模型或经济模型能明显提高多agent系统的智能水平,所以将这一类分布式强化学习单独分离出来称为社会强化学习。其模拟人类社会中人类个体之间的交互过程,建立社会模型或经济模型,用社会学和管理学的办法来调节agent 之间的关系,形成高效的交流、协作、竞争机制,从而达到整个系统意义上的学习目标。社会强化学习比独立强化学习具有更大的灵活性,可以建立更复杂的结构,采纳社会学或经济学的概念可以更有效地克服独立学习自私的缺陷,可以在agent之间传播优秀的策略,可以消解agent之间可能产生的冲突,可以更有效地解决结构信度分配问题
网友评论