当前位置：首页 > 所有资源 > 《大数据预处理》所有资源 > 国家开放大学《大数据预处理》期末考试题库及答案

国家开放大学《大数据预处理》期末考试题库及答案2025年秋

下载打印版题库

适用科目：《大数据预处理》课程号：99999

（点击下列按钮即可跳转对应的题型位置）

单选(39)
简答(8)
判断(40)
填空(29)
程序(8)

[单选] 1. 在大多数箱线图绘图工具中，定义上限值位置和下限值位置分别为（）。

[单选] 2. 下图是某分类变量各类别计数分布的箱线图，从图中可知（）。

[单选] 3. 下列数据特征缩放的公式中，正确的是（）。

[单选] 4. 下列关于用方差分析进行变量选择的表述中，不正确的是（）。

[单选] 5. 下列关于异常值识别方法的表述中，不正确的是（）。

[单选] 6. 下列关于异常值的表述中，不正确的是（）。

[单选] 7. 下列关于异常值的表述中，不正确的是（）。

[单选] 8. 下列关于异常值处理方法的表述中，正确的是（）。

[单选] 9. 下列关于异常值处理的表述中，不正确的是（）。

[单选] 10. 下列关于哑变量的说法中，不正确的是（）。

[单选] 11. 下列关于哑变量的名称中，不正确的是（）。

[单选] 12. 下列关于相关系数的表述中，正确的是（）。

[单选] 13. 下列关于数据中心化的表述中，不正确的是（）。

[单选] 14. 下列关于数据预处理环节简化数据的表述中，不正确的是（）。

[单选] 15. 下列关于数据预处理的目的中，不正确的是（）。

[单选] 16. 下列关于数据预处理的表述中，不正确的是（）。

[单选] 17. 下列关于数据缺失类型的表述中，错误的是（）。

[单选] 18. 下列关于数据缺失的表述中，正确的是（）。

[单选] 19. 下列关于数据离散化的方法中，不正确的是（）。

[单选] 20. 下列关于数据归约的意义中，不正确的是（）。

[单选] 21. 下列关于数据错误的表述中，不正确的是（）。

[单选] 22. 下列关于数据标准化的表述中，不正确的是（）。

[单选] 23. 下列关于缺失值的形式的说法中，正确的是（）。

[单选] 24. 下列关于决策树模型的表述中，不正确的是（）。

[单选] 25. 下列关于分箱法的表述中，不正确的是（）。

[单选] 26. 下列关于低频分类数据的表述中，正确的是（）。

[单选] 27. 下列关于变量的数据特征的表述中，正确的是（）。

[单选] 28. 下列关于Robust缩放方法的表述中，不正确的是（）。

[单选] 29. 下列关于Max-ABS缩放的表述中，不正确的是（）。

[单选] 30. 下列对定性变量的描述中，不正确的是（）。

加载更多

加载更多

[简答] 1. 请简述异常值的含义。

[简答] 2. 请简述数据特征缩放对数据分析的意义。

[简答] 3. 请简述使用相关系数选择变量的思想和步骤。

[简答] 4. 请简述将变量缩放至区间[-1,1]时，Max-ABS缩放与Min-Max缩放的效果是否相同。

[简答] 5. 简述数据离散化的操作含义。

[简答] 6. 简述缺失值填补的思路。

[简答] 7. 简述低频分类数据的特点、形成原因及影响。

[简答] 8. 简述等宽法的适用情况。

加载更多

[判断] 1. 在数据预处理时，数据集中变量的数量不能发生变化。

[判断] 2. 在数据存储过程中，由于设备故障造成存储失败而导致的数据缺失，属于客观条件原因。

[判断] 3. 在进行变量选择时需要遵循的原则是，剔除的变量必须对数据分析影响较小。

[判断] 4. 异常值的数值可能是真实的值。

[判断] 5. 一旦发现异常值，就应当将其删除。

[判断] 6. 完全随机缺失类型是指数据的缺失不受任何内部和外部因素的影响。

[判断] 7. 通过考察变量中每一个样本值与变量分布中心的相对距离来识别异常值。

[判断] 8. 所有的异常值都必须删除。

[判断] 9. 所有的数据错误都可以被发现并纠正。

[判断] 10. 数量归约是指从所有样本中选择一个有代表性的子集，因此也称为样本归约。

[判断] 11. 数据中心化是数据标准化的第一个步骤。

[判断] 12. 数据预处理是指在对数据进行分析前需要对数据进行的处理工作。

[判断] 13. 数据缺失使得数据集信息含量降低，还会使一些模型无法应用。

[判断] 14. 数据离散化指的是将连续型变量在保留其基本数据含义的基础上转换为定性变量的操作。

[判断] 15. 数据离散化是指将定性变量转换为连续性变量。

[判断] 16. 数据分析项目中，数据预处理环节不重要，可以忽略不做。

[判断] 17. 使用客观法得到的是分类形式或顺序形式定性变量，依据的是研究者基于研究目的所确定的类别。

[判断] 18. 若数据集中某样本包含缺失值，则该样本需要被删除。

[判断] 19. 如果输入数据是连续型数据，使用决策树模型时，就必须将连续型变量离散化为定性变量使用。

[判断] 20. 日期时间型数据不能进行任何计算。

[判断] 21. 模型预测准确度总是随着样本数量的增加而同步增加。

[判断] 22. 逻辑纠错中比较简单的方式是将不合理的值替换为缺失值，这样既保持了变量的性质不变，又避免了错误数据的危害。

[判断] 23. 利用箱线图可以识别出异常值。

[判断] 24. 具有不同的数据特征的变量可以直接纳入到同一个分析体系中。

[判断] 25. 经过标准化处理后，新值体现的是原值在序列中的相对位置。

[判断] 26. 经过Max-ABS缩放后，数据的正负可能会发生改变。

[判断] 27. 将数据离散化后，可以克服连续型变量中隐藏的缺陷，使模型结果更加稳定，得到更加有意义的研究结论。

[判断] 28. 过多的低频类别会严重影响建模的效率。

[判断] 29. 低频分类数据都是由于数据采集是的错误导致的。

[判断] 30. 低频分类数据的形成都是由于真实的分类结果确实存在低频类别。

加载更多

[填空] 1. 找出data中3000到10000的值，结果保存在result中：

[填空] 2. 通过画箱线图对数据data识别异常值：

[填空] 3. 使用客观法离散化data，设定了参数为bins = [0, 10000, 100000, 200000, np.inf]，标签为["new", "used", "old", "worn"]，结果保存在result中：

[填空] 4. 使用截断方法，将大于data_mean+5*data_std赋值为data_mean+5*data_std ：

[填空] 5. 使用test_x数据集计算只包含部分变量var_new的新模型model_new的AUC值：

[填空] 6. 使用boston数据实现线性回归模型填补。首先初始化一个线性回归模型，模型的训练集为train，将含有缺失值的变量LSTAT作为目标变量，其余变量作为自变量拟合模型：

[填空] 7. 使用boston数据实现线性回归模型填补。首先初始化一个线性回归模型，模型的训练集为train，将含有缺失值的变量LSTAT作为目标变量，其余变量作为自变量拟合模型：

[填空] 8. 截取addr的前三个字，并查看唯一值：

[填空] 9. 将数据集data中的所有变量缩放到区间[0,5]，结果保存在data_scale中：

[填空] 10. 将数据集data中的变量v1的缺失值使用其均值进行填补，将填补完的变量保存在v1_fill中：

[填空] 11. 将data离散化为0-1型变量，结果保存在result中：

[填空] 12. 将data_1数据集age变量中的-1和999替换为缺失值：

[填空] 13. 计算离散化变量的各类频数，结果保存在result中：

[填空] 14. 计算变量y与x的Spearman相关系数：

[填空] 15. 计算变量y与x的Pearson相关系数：

[填空] 16. 计算car_data数据集中的make变量每一个类别的频数，存储在make_count中：

[填空] 17. 对序列B进行中心化，结果保存在centralize_b中：

[填空] 18. 对数据集data中的所有变量进行Robust缩放，结果保存在data_scale中：

[填空] 19. 对数据集data中的所有变量进行Min-Max缩放，结果保存在data_scale中：

[填空] 20. 对数据集data中的所有变量进行Max-ABS缩放，结果保存在data_scale中：

[填空] 21. 对数据data计算平均值，结果保存在result中：

[填空] 22. 对数据data计算标准分数，data_mean是data的平均值，data_std是data的标准差，结果保存在result中：result=（data-）/

[填空] 23. 对group_a组和group_b组样本进行方差分析的F检验：

[填空] 24. 对data数据采用等频分箱，分组数为5组，结果保存在result中：

[填空] 25. 对data数据采用等宽分箱，分组数为5组，结果保存在result中：

[填空] 26. 对boston数据集中的变量LSTAT进行处理，随机生成了10个缺失值：

[填空] 27. 对3倍标准差异常值分类计数，结果保存在result中：result=data.（）

[填空] 28. 查看数据集car_data中所有变量缺失值情况，将结果保存在对象missing_car中：

[填空] 29. car_data数据集中的make变量每一个类别的频数存储在make_count中，现在将car_data数据集中的make变量频数低于100的类别合并为一类：

加载更多

[程序题] 1. 请写出下方代码的功能 train, test = train_test_split(data, test_size=0.3)

[程序题] 2. 请写出下方代码的功能 scaler = StandardScaler()

[程序题] 3. 请写出下方代码的功能 pearson = pd.Series(name="pearson correlation")

[程序题] 4. 请写出下方代码的功能 model_all = GradientBoostingClassifier(random_state=0)

[程序题] 5. 请写出下方代码的功能 dt_example = pd.Series("")

[程序题] 6. 请写出下方代码的功能 data_1 = copy.deepcopy(data)

[程序题] 7. 请写出下方代码的功能 car_data = pd.read_csv(r"d:cardata.csv",header=0)

[程序题] 8. 请写出下方代码的功能 bin_1=pd.cut(price,bins=5)

加载更多