单选题

AlphaGo在围棋比赛中战胜人类冠军,其核心算法中使用了(),该方法通过智能体与环境的交互,根据环境的反馈(奖赏或惩罚)来优化行为策略。

A

迁移学习

B

强化学习

C

主动学习

D

演化学习

查看答案
答案
正确答案:B
解析

强化学习学习从环境状态到行为的映射,使智能体选择的行为能获得环境最大奖赏。AlphaGo是强化学习在博弈领域的典型应用。

【考点来源】11.2.3人工智能关键技术

历年真题
资料下载

注册回到顶部

版权所有©环球网校All Rights Reserved