AlphaGo在围棋比赛中战胜人类冠军,其核心算法中使用了(),该方法通过智能体与环境的交互,根据环境的反馈(奖赏或惩罚)来优化行为策略。
迁移学习
强化学习
主动学习
演化学习
强化学习学习从环境状态到行为的映射,使智能体选择的行为能获得环境最大奖赏。AlphaGo是强化学习在博弈领域的典型应用。
【考点来源】11.2.3人工智能关键技术
登录 | 注册 | 回到顶部
版权所有©环球网校All Rights Reserved