单选题

在Lambda架构的大数据平台中,离线计算部分主要负责处理批量数据。关于离线计算部分的技术选型和数据流向,下列描述正确的是( )。

A
使用Spark和Map/Reduce进行批处理,结果存储在HDFS中,并通过Impala或Hive建立数据仓库
B
使用Spark Streaming进行实时处理,结果存储在Redis中,并通过HBase建立数据仓库
C
使用Flink进行流处理,结果存储在ElasticSearch中,并通过Kafka建立数据仓库
D
使用Storm进行批处理,结果存储在MongoDB中,并通过Cassandra建立数据仓库
查看答案
答案
正确答案:A
解析
【内容考查】本题考查Lambda架构中离线计算部分的技术组件选型和数据处理流程。
【选项分析】选项A正确,Lambda架构的离线计算部分专门处理批量数据,使用Spark和Map/Reduce等批处理框架进行数据处理,处理结果存储在HDFS分布式文件系统中,然后通过Impala或Hive等工具建立数据仓库进行查询分析。
选项B错误,Spark Streaming是实时处理技术,属于Lambda架构的实时计算部分,不是离线计算部分的技术选型。
选项C错误,Flink主要用于流处理,ElasticSearch主要用于搜索和日志分析,这些技术组合更适合实时处理场景。
选项D错误,Storm是流处理框架,MongoDB和Cassandra是NoSQL数据库,这种组合不符合Lambda架构离线计算部分的典型技术栈。
历年真题
资料下载

注册回到顶部

版权所有©环球网校All Rights Reserved