短信预约提醒成功
数据挖掘
【知识点】
数据挖掘的相关概念如下:
1.含义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。包含以下几层含义:
(1)数据源必须是真实的、大量的、有噪声的。
(2)发现的是用户感兴趣的知识。
(3)发现的知识是可接受的、可理解、可运用的。
(4)并不要求发现放之四海而皆准的知识,只支持特定的发现问题。
2.出发点和核心任务:数据挖掘以解决实际问题为出发点;核心任务是对数据关系和特征进行探索。
3.类型
(1)指导学习或监督学习
监督学习是对目标需求的概念进行学习和建模,通过探索数据和建立模型来实现从观察变量到目标需求的有效解释。
(2)无指导学习或非监督学习
无监督学习没有明确的标识变量来表达目标概念,主要任务是探索数据之间的内在联系和结构。
4.常用的算法
(1)分类
1)含义:确定目标对象属于哪个预定类别,以实现对未来潜在的预测需求。分类技术属于一种监督学习,即使用已知类别的训练数据建立分类模型的方法。
2)实际应用:在邮件系统中区分出垃圾邮件,在贷款客户中判断出有风险客户等。
3)常用方法:决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。
(2)聚类分析
1)含义:把一组数据按照差异性和相似性分为几个类别,使得同类的数据相似性尽量大,不同类的数据相似性尽可能小,跨类的数据关联性尽可能低。聚类是一种无监督学习。其要划分的类是未知的,聚类分析是根据观察学习来确定数据之间的关系。
2)实际应用:用于客户细分、文本归类、结构分组、行为跟踪等问题。
3)常用方法:基于划分的方法、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法。
(3)关联分析
1)含义:是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现 预测其他数据项的出现。
2)实际应用:啤酒尿布案例,数据挖掘发现大型超市中购买啤酒的男士经常同时购买小孩纸尿裤,基于这一发现,超市把啤酒和纸尿裤摆放在一起,结果两种商品的销售量明显提升。
3)常用方法:购物篮分析,目的是发现交易数据中不同商品之间的联系规则,让营销商制定更好的营销策略。
(4)趋势与演化分析
趋势与演化分析包括数据变化趋势、序列模式分析、周期性分析以及相似程度分析等内容。统计学的回归分析方法经常用于这类问题的分析。
【多选题】
下列关于数据挖掘的表述正确的有( )。
A. 数据挖掘是指从大量的、完全的、有噪声的、清晰的、随机的实际应用数据中,提取隐藏在其中 但又有潜在价值的信息和知识的过程
B. 数据挖掘以解决实际问题为出发点
C. 数据挖掘可以分为指导学习或监督学习以及无指导学习或非监督学习两类
D. 分类技术属于一种无监督学习
E. 在邮件系统中区分出垃圾邮件数据属于数据挖掘中的分类技术
【答案】BCE
【解析】数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏 在其中但又有潜在价值的信息和知识的过程,A 项错误;分类技术属于一种监督学习,即使用已知类别的 训练数据建立分类模型的方法,D 项错误。
为避免考生因备考忘记考试节点而无法参加考试,环球网校提供 免费预约短信提醒服务,届时会通知您2020中级经济师准考证打印时间、考试时间等节点,请及时预约!
以上内容是2020年中级经济师《经济基础》考点及母题:数据挖掘,小编为大家上传了更多2020年中级经济师《经济基础》考点、母题及历年真题,点击“免费下载”按钮后即可领取!