AlphaGo在围棋比赛中战胜人类冠军，其核心算法中使用了（），该方...-环球网校

单选题

AlphaGo在围棋比赛中战胜人类冠军，其核心算法中使用了（），该方法通过智能体与环境的交互，根据环境的反馈（奖赏或惩罚）来优化行为策略。

A

迁移学习

B

强化学习

C

主动学习

D

演化学习

查看答案

答案

正确答案:B

解析

强化学习学习从环境状态到行为的映射，使智能体选择的行为能获得环境最大奖赏。AlphaGo是强化学习在博弈领域的典型应用。

【考点来源】11.2.3人工智能关键技术

历年真题

资料下载

更多试题 >

更多资料 >

登录｜注册｜回到顶部

版权所有©环球网校All Rights Reserved