上传者: imgsq
|
上传时间: 2024-05-10 20:49:31
|
文件大小: 1.66MB
|
文件类型: DOCX
本文拟对kaggle上的一篇关于随机森林模型的文章进行案例调研,对文章的各个环节,包括案例描述、数据检视、特征工程、模型训练和模型优化使用的方法进行梳理并对文章的亮点与不足做出相应的反思。该文章的任务是基于随机森林模型,结合人的15项特征来预测该人年收入是否超过5万美元。数据源是美国人口普查局1994年的普查数据,调查对象数量为32561。这篇文章的亮点有:1.特征工程使用了简单而且容易理解的方法;2.进行充分的数据检视,对后续数据处理有了启示性作用;3、通过计算特征重要度过滤不重要的特征,展现了模型可以不断优化的可能性。主要不足有:1、没有解决高基数问题;2.并没有优化模型参数;3.没有处理离群值。