首页
下载
赚积分
充值
当前位置:
首页
>
所有资源
>
《大数据技术概论》所有资源
>
国家开放大学24154《大数据技术概论》期末考试题库及答案
国家开放大学24154《大数据技术概论》期末考试题库及答案2025年春
下载打印版题库
适用科目:《大数据技术概论》 试卷号:24154
(点击下列按钮即可跳转对应的题型位置)
单选(116)
简答(26)
判断(59)
[单选]
1. 噪声是指测量数据中的()。
[单选]
2. 在以二维表形式表示的数据集中,行表示()。
[单选]
3. 在数据可视化中,适合表示数据随时间变化的趋势的是()。
[单选]
4. 在数据仓库的三层架构中,哪一层可以实现数据的快速查询?
[单选]
5. 在缺失值的处理方法中,()是利用样本观测之间的相关性来插补缺失值。
[单选]
6. 在工业网络实时监控系统中,需要连续不断地采集和处理数据。以下()不属于这种计算模式。
[单选]
7. 在大数据中,以下哪项可能导致个人信息被泄露?
[单选]
8. 在大数据分析和处理中,以下哪种算法经常用于进行数据降维?
[单选]
9. 在大数据的挖掘中,用于解决分类问题的机器学习算法不包括()。
[单选]
10. 在大数据的处理流程中,下列各项中最先进行的是()。
[单选]
11. 在大数据的处理流程中,()步骤是将数据转化为图形,以更直观的方式展示和表达。
[单选]
12. 在大数据处理中,用以确保数据完整性、防止被非法篡改的安全技术是()。
[单选]
13. 在MapReduce模型编程中,运算步骤不包括()。
[单选]
14. 在Hadoop生态系统中,主要负责跨节点存储结构化或非结构化数据,并以日志文件的形式管理数据的组件是()。
[单选]
15. 在Hadoop生态系统中,主要负责节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是()。
[单选]
16. 在Hadoop的HDFS架构中,以下哪项功能不是主节点(NameNode)的职责()。
[单选]
17. 用以表示变量之间关系的一种可视化方法是()。
[单选]
18. 异常值的处理方法包括()。
[单选]
19. 以下哪种方法不适用于在线数据集的实时收集()。
[单选]
20. 以下哪种方法不适合用于表示两个变量间的关系?
[单选]
21. 以下哪种大数据分析技术可以发现数据集中潜在的关联规则?
[单选]
22. 以下哪一项是大数据处理涉及的隐私保护问题()。
[单选]
23. 以下可视化图形中,()是由数据集合中的最大值、最小值、中位数和两个四分位数绘制而成。
[单选]
24. 以下关于基于关联规则的推荐算法的描述中,正确的是()。
[单选]
25. 以下关于关联规则的描述中,错误的是()。
[单选]
26. 以下常用于时间序列数据可视化的方法是()。
[单选]
27. 下面哪一个不是数据的容量单位()。
[单选]
28. 下面哪一点不属于SQL引擎层的作用()。
[单选]
29. 下面哪个场景不适合用k近邻法进行分类()。
[单选]
30. 下面哪个不属于ApacheSpark的组件()。
加载更多
[简答]
1. 在具体实施时,聚类分析的四个步骤分别是什么?
[简答]
2. 银行如何利用大数据进行风险管理?
[简答]
3. 为什么我们在做聚类分析之前需要进行特征选择或者特征抽取?
[简答]
4. 通过相关系数矩阵处理共线性问题的算法步骤是什么?
[简答]
5. 数据整理的内容主要包括哪四个方面?
[简答]
6. 数据离散化的定义是什么?
[简答]
7. 数据可视化的作用是什么?
[简答]
8. 数据可视化的基本原则包括哪些方面?
[简答]
9. 数据分布可视化中,条形图与直方图的区别是什么?
[简答]
10. 数据的定义是什么?
[简答]
11. 什么是缺失值?如何处理缺失值?
[简答]
12. 请说明什么是数据降维,在大数据处理中,其作用是什么?
[简答]
13. 请列举五种常见的数据缺失值插补方法。
[简答]
14. 请列举三种大数据在汽车领域的应用。
[简答]
15. 请列举三种常用的电子商务推荐算法。
[简答]
16. 请解释什么是分类方法,什么是训练集和检验集,并给出一些常见的分类算法。
[简答]
17. 请简述使用kNN算法将未分类的观测或个体划分到跟它最接近的观测所在类别的具体实施步骤。
[简答]
18. 请简述解释大数据中的“脏数据”是什么以及可能的产生原因。
[简答]
19. 请简述基于人口统计的推荐算法有何特点及应用场景。
[简答]
20. 请简述大数据的价值所在?
[简答]
21. 非结构化数据在大数据时代的特点和挑战是什么?
[简答]
22. 定量变量的定义是什么?
[简答]
23. 大数据在应用中主要面临哪些挑战?
[简答]
24. 大数据的处理流程主要包括哪5个步骤?
[简答]
25. 大数据的成因是什么?
[简答]
26. 变量的定义是什么?
加载更多
[判断]
1. 在数据分析中,数据可视化只是一种辅助工具,不具有实际的分析功能。
[判断]
2. 在分类方法中,决策树法的结果复杂难懂、可解释性较差。
[判断]
3. 在大数据环境下,数据使用的合规性并不需要考虑,因为大数据的收集和分析主要是为了提供更好的服务和产品。
[判断]
4. 在大数据的应用中,只需要依赖大数据分析技术,与各行业的业务关联性并不大。
[判断]
5. 银行业通过大数据技术可以有效分析经营过程中可能存在的风险因素。
[判断]
6. 样本相关系数(correlationcoefficient)可以用于衡量两个变量之间的线性关系强度。
[判断]
7. 为了避免数据的杂乱无序,通常将数据整理成数据集。
[判断]
8. 为防止隐私被窃取,企业和个人可以运用隐私保护技术来保护数据的安全。
[判断]
9. 网页数据是一种半结构化数据。
[判断]
10. 通常使用直方图展示两个数值型变量之间的相关关系。
[判断]
11. 特征选择是指由原始变量的函数构造一些新的变量,新的变量能保留原始变量的绝大部分信息。
[判断]
12. 数据预处理的主要目的是为了提高数据质量,将原始数据变成更加方便计算或处理的格式,使数据形态更加符合建模要求,进而提升数据挖掘的质量和效率。
[判断]
13. 数据预处理的一种方法是数据归一化,它将所有数据缩放到一个固定的范围中,以消除数据之间的尺度差异。
[判断]
14. 数据预处理的过程中不需要进行数据转换。
[判断]
15. 数据脱敏技术可以有效降低敏感数据泄露的风险。
[判断]
16. 数据缺失的现象大量存在而又无法避免。
[判断]
17. 数据清洗就是将无用的、重复的、不完整的数据进行修改或删除,以保证数据质量的过程。
[判断]
18. 数据可视化对于提升数据的理解、分析与推断没有帮助。
[判断]
19. 数据可视化的作用仅限于将抽象的数据进行可视表达,无法帮助我们发现数据中的规律和特征。
[判断]
20. 数据科学是通过科学方法探索数据,以获得有价值的发现。
[判断]
21. 数据科学的发展不仅可以推动学科的发展,而且能够助推相关产业的发展与进步。
[判断]
22. 适当地使用数据脱敏技术,可以有效地减少敏感数据在采集、传输、使用等环节中的露,降低敏感数据泄露的风险。
[判断]
23. 使用Ambari管理工具,可以快捷地监控、部署、管理Hadoop集群。
[判断]
24. 时间序列数据是按时间顺序排列的观测值序列,用于所描述现象随时间变化的情况。
[判断]
25. 时间序列分析中采用对数变换来消除异方差。
[判断]
26. 散点图是最常用于展示两个数值型变量之间关系的可视化方法。
[判断]
27. 气泡图中气泡的面积大小没有实际意义。
[判断]
28. 批量数据处理旨在以最小延迟处理实时生成的数据流。
[判断]
29. 批量数据处理是一种在线计算模式,可以满足系统对数据进行实时处理的需要。
[判断]
30. 批处理系统支持作业执行状态的监控。
加载更多