机器学习——泰坦尼克号幸存者预测的数据处理

2022年8月19日 29点热度 0人点赞

为用决策树预测泰坦尼克号幸存者,做数据处理的准备工作。

工具/原料

  • 开发工具Jupyter

方法/步骤

  1. 1

    第一步导入pandas模块,并读取需要处理的数据。

  2. 2

    数据导入后可以查看导入数据的基本信息

  3. 3

    方法1:利用info()方法

  4. 4

    方法2:也可利用head()方法,该方法可以控制显示多少数据,可以更直观的观查看数据。

  5. 5

    删除与模型不相关或者对模型影响不大的特征

  6. 6

    接下来处理缺失值。

  7. 7

    在年龄特征列中含有177个缺失值,需要将其处理。

  8. 8

    此处用均值填充的方法处理该列的缺失值,注意并不是所有的数据都可以采用均值填充。

  9. 9

    处理完年龄所在列的缺失值后,发现Embarked特征列中含有2个缺失值。

  10. 10

    Embarked所在列有2个缺失值,并且数据类型为object,因此可以将该2行数据删除,对模型的影响不大。

  11. 11

    删除数据集中的缺失值方法:dropna()默认对行操作,删除有缺失值行的数据。

  12. 12

    但是需要注意的是:此方法是将删除后的数据返回,不会对原始数据做修改。

  13. 13

    若希望在原始数据上直接修改,可传入inplace=True。

  14. 14

    到此为止,数据集中的缺失值处理完毕。

  15. 15

    但由于决策树处理的数据类型为数字,因此接下来需要将数据集中的非数字类型转换为数字类型。

  16. 16

    可以利用unique()方法查看数据的分类信息。

  17. 17

    以下是将多分类(不超过10个)的数据转换为10以内的数字的方法。

  18. 18

    接下来处理性别这个特征所在列的数据,处理方法仍然可以利用上面的方方法处理,下面采用处理二分类数据的方法

  19. 19

    处理完成后的数据如图示:

  20. 20

    到目前为止,决策树所需要的数据已经准备完成,可以建立决策树模型了。

    END
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。

展开阅读全部

laozhao

这个人很懒,什么都没留下

文章评论