分布式与云计算 单元测验

第1章 大数据概述 单元测验

1单选(2分)第三次信息化浪潮的标志是:(B)

  • A.虚拟现实技术的普及
  • B.云计算、大数据、物联网技术的普及
  • C.互联网的普及
  • D.个人电脑的普及

2单选(2分)就数据的量级而言,1PB数据是多少TB?(B)

  • A.2048
  • B.1024
  • C.1000
  • D.512

3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:(A)

  • A.云计算侧重于数据分析
  • B.云计算、大数据和物联网三者紧密相关,相辅相成
  • C.物联网可以借助于云计算实现海量数据的存储
  • D.物联网可以借助于大数据实现海量数据的分析

4单选(2分)以下哪个不是大数据时代新兴的技术:(B)

  • A.Spark
  • B.MySQL
  • C.Hadoop
  • D.HBase

5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:(A)

  • A.MapReduce
  • B.Storm
  • C.Dremel
  • D.Pregel

6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:(C)

  • A.Hive
  • B.Impala
  • C.S4
  • D. GraphX

7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:(D)

  • A.Flume
  • B.Storm
  • C.Cassandra
  • D.Pregel

8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:(D)

  • A.MapReduce
  • B.S4
  • C.HDFS
  • D.Dremel

9多选(3分)数据产生方式大致经历了三个阶段,包括:(B,C,D)

  • A.移动互联网数据阶段
  • B.运营式系统阶段
  • C.用户原创内容阶段
  • D.感知式系统阶段

10多选(3分)大数据发展的三个阶段是:(A,C,D)

  • A.大规模应用期
  • B.低谷期
  • C.成熟期
  • D.萌芽期

11多选(3分)大数据的特性包括:(A,B,C,D)

  • A.数据类型繁多
  • B.数据量大
  • C.处理速度快
  • D.价值密度低

12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了哪几种范式:(A,B,C,D)

  • A.数据密集型科学
  • B.理论科学
  • C.计算科学
  • D.实验科学

13多选(3分)大数据带来思维方式的三个转变是:(B,C,D)

  • A.精确而非全面
  • B.全样而非抽样
  • C.相关而非因果
  • D.效率而非精确

14多选(3分)大数据主要有哪几种计算模式:(A,B,C,D)

  • A.查询分析计算
  • B.图计算
  • C.批处理计算
  • D.流计算

15多选(3分)云计算的典型服务模式包括三种:(A,B,C)

  • A. IaaS
  • B.SaaS
  • C.PaaS
  • D.MaaS

第2章 大数据处理架构Hadoop 单元测验

1单选(2分)启动hadoop所有进程的命令是:(B)

  • A.start-hadoop.sh
  • B.start-all.sh
  • C.start-dfs.sh
  • D.start-hdfs.sh

2单选(2分)以下对Hadoop的说法错误的是:(C)

  • A.Hadoop的核心是HDFS和MapReduce
  • B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
  • C.Hadoop是基于Java语言开发的,只支持Java语言编程
  • D.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算

3单选(2分)以下哪个不是Hadoop的特性:(C)

  • A.高容错性
  • B.高可靠性
  • C.成本高
  • D.支持多种编程语言

4单选(2分)以下名词解释不正确的是:(B)

  • A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
  • B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
  • C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
  • D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现

5多选(3分)以下哪些组件是Hadoop的生态系统的组件:(A,C,D)

  • A.HBase
  • B. Oracle
  • C.MapReduce
  • D.HDFS

6多选(3分)以下哪个命令可以用来操作HDFS文件:(A,B,D)

  • A.hadoop fs
  • B.hadoop dfs
  • C.hdfs dfs
  • D.hdfs fs

第3章 分布式文件系统HDFS 单元测验

1单选(2分)HDFS的命名空间不包含:(D)

  • A.块
  • B.目录
  • C.文件
  • D.字节

2单选(2分)对HDFS通信协议的理解错误的是:(A)

  • A.HDFS通信协议都是构建在IoT协议基础之上的
  • B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
  • C.名称节点和数据节点之间则使用数据节点协议进行交互
  • D.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的

3单选(2分)采用多副本冗余存储的优势不包含:(C)

  • A.加快数据传输速度
  • B.容易检查数据错误
  • C.节约存储空间
  • D.保证数据可靠性

4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:(C)

  • A.start-hdfs.sh,stop-hdfs.sh
  • B.start-dfs.sh,stop-hdfs.sh
  • C.start-dfs.sh,stop-dfs.sh
  • D.start-hdfs.sh,stop-dfs.sh

5单选(2分)分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫 :(A)

  • A.名称节点,数据节点
  • B.从节点,主节点
  • C.名称节点,主节点
  • D.数据节点,名称节点

6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:(C)

  • A.分布式文件系统HDFS是一种关系型数据库
  • B.分布式文件系统HDFS比较适合存储大量零碎的小文件
  • C.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
  • D.分布式文件系统HDFS是Google Bigtable的一种开源实现

7多选(3分)以下对名称节点理解正确的是:(A,B,D)

  • A.名称节点通常用来保存元数据
  • B.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
  • C.名称节点用来负责具体用户数据的存储
  • D.名称节点的数据保存在内存中

8多选(3分)以下对数据节点理解正确的是:(A,B,C)

  • A.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
  • B.数据节点的数据保存在磁盘中
  • C.数据节点用来存储具体的文件内容
  • D.数据节点通常只有一个

9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:(A,B,C,D)

  • A.隔离问题
  • B.集群的可用性
  • C.命名空间的限制
  • D.性能的瓶颈

10多选(3分)以下HDFS相关的shell命令不正确的是:(B,D)

  • A.hadoop fs -ls :显示指定的文件的详细信息
  • B.hadoop fs -copyFromLocal :将路径指定的文件或文件夹复制到路径指定的文件夹中
  • C.hdfs dfs -rm :删除路径指定的文件
  • D.hadoop dfs mkdir :创建指定的文件夹

第4章 分布式数据库HBase单元测验

1单选(2分)HBase是一种 数据库(C)

  • A.文档数据库
  • B.行式数据库
  • C.列式数据库
  • D.关系数据库

2单选(2分)下列对HBase数据模型的描述错误的是:(C)

  • A.每个HBase表都由若干行组成,每个行由行键(row key)来标识
  • B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳
  • C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本
  • D.HBase列族支持动态扩展,可以很轻松地添加一个列族或列

3单选(2分)下列说法正确的是:(D)

  • A.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据
  • B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器
  • C.如果不启动Hadoop,则HBase完全无法使用
  • D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等

4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:(D)

  • A.500MB-1000MB
  • B.2GB-4GB
  • C.100MB-200MB
  • D.1GB-2GB

5单选(2分)HBase三层结构的顺序是:(B)

  • A.Zookeeper文件,.MEATA.表,-ROOT-表
  • B.Zookeeper文件,-ROOT-表,.MEATA.表
  • C..MEATA.表,Zookeeper文件,-ROOT-表
  • D.-ROOT-表,Zookeeper文件,.MEATA.表

6单选(2分)客户端是通过 级寻址来定位Region:(A)

  • A.三
  • B.一
  • C.二
  • D.四

7单选(2分)关于HBase Shell命令解释错误的是:(A)

  • A.list:显示表的所有数据
  • B. create:创建表
  • C.put:向表、行、列指定的单元格添加数据
  • D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

8多选(3分)下列对HBase的理解正确的是:(B,C)

  • A.HBase是一种关系型数据库,现成功应用于互联网服务领域
  • B.HBase多用于存储非结构化和半结构化的松散数据
  • C. HBase是针对谷歌BigTable的开源实现
  • D.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件

9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:(A,B,C,D)

  • A.数据模型
  • B. 数据操作
  • C.存储模式
  • D.数据索引

10多选(3分)访问HBase表中的行,有哪些方式:(A,C,D)

  • A.全表扫描
  • B.通过某列的值区间
  • C.通过一个行健的区间来访问
  • D.通过单个行健访问

第5章 NoSQL数据库 单元测验

1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:(A)

  • A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性
  • B.NoSQL数据库具有弱一致性,关系型数据库具有强一致性
  • C.NoSQL数据库的可扩展性比传统的关系型数据库更好
  • D.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言

2单选(2分)以下对各类数据库的理解错误的是:(C)

  • A.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱
  • B.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等
  • C.HBase数据库是列族数据库,可扩展性强,支持事务一致性
  • D.文档数据库的数据是松散的,XML和JSON 文档等都可以作为数据存储在文档数据库中

3单选(2分)下列数据库属于文档数据库的是:(D)

  • A.MySQL
  • B.Redis
  • C.HBase
  • D.MongoDB

4单选(2分) NoSQL数据库的三大理论基石不包括:(D)

  • A. CAP
  • B.最终一致性
  • C. BASE
  • D.ACID

5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:(A,C,D)

  • A.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础
  • B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库
  • C.NoSQL数据库可以支持超大规模数据存储,具有强大的横向扩展能力
  • D.大多数NoSQL数据库很难实现数据完整性

6多选(3分) NoSQL数据库的类型包括:(A,B,C,D)

  • A.文档数据库
  • B.键值数据库
  • C.图数据库
  • D.列族数据库

7多选(3分)CAP是指:(A,C,D)

  • A.一致性
  • B.持久性
  • C.可用性
  • D.分区容忍性

8多选(3分)NoSQL数据库的BASE特性是指:(A,B,D)

  • A.软状态
  • B.基本可用
  • C.持续性
  • D.最终一致性

第7章 MapReduce 单元测验

1单选(2分)下列说法错误的是:(D)

  • A.不同的Map任务之间不能互相通信
  • B.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
  • C.Map函数将输入的元素转换成<key,value>形式的键值对
  • D.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写

2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式:(B)

  • A.<"hello",1,1>、<"hadoop",1>和<"world",1>
  • B.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>
  • C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>
  • D.<"hello",2>、<"hadoop",1>和<"world",1>

3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:(C)

  • A.<"hello",1><"hello",1><"hadoop",1><"world",1>
  • B. <"hello",<1,1>><"hadoop",1><"world",1>
  • C.<"hello",2><"hadoop",1><"world",1>
  • D.<"hello",1,1><"hadoop",1><"world",1>

4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:(A,B,C,D)

  • A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
  • B.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
  • C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
  • D.前者相比后者学习起来更难

5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:(A,B,C,D)

  • A.JobTracker
  • B.Client
  • C.Task
  • D.TaskTracker

第9章 数据仓库Hive 单元测验

1单选(2分)下列有关Hive和Impala的对比错误的是:(B)

  • A.Hive与Impala使用相同的元数据
  • B.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此
  • C.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划
  • D.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询

2单选(2分)下列关于Hive基本操作命令的解释错误的是:(D)

  • A.create table if not exists usr(id bigint,name string,age int);//如果usr表不存在,创建表usr,含三个属性id,name,age
  • B.create database userdb;//创建数据库userdb
  • C.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据
  • D.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表

3多选(3分)下列说法正确的是:(A,C,D)

  • A.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据
  • B.数据仓库Hive不需要借助于HDFS就可以完成数据的存储
  • C.Impala和Hive、HDFS、HBase等工具可以统一部署在一个Hadoop平台上
  • D.HiveQL语法与传统的SQL语法很相似

4多选(3分)Impala主要由哪几个部分组成:(B,C,D)

  • A.Hive
  • B.CLI
  • C.State Store
  • D.Impalad

5多选(3分)以下属于Hive的基本数据类型是:(A,B,C,D)

  • A.TINYINT
  • B.STRING
  • C.BINARY
  • D.FLOAT