上传者: 42131316
|
上传时间: 2021-11-02 15:52:16
|
文件大小: 7.16MB
|
文件类型: -
加拿大机动车碰撞(1999-2017)
在现实世界的数据集中,类不平衡是一个普遍的问题。 当一个类别(称为多数或否定类别)远远超过另一类别(称为少数或肯定类别)时,就会出现不平衡的数据集。 当正类是关注类时,就会出现类不平衡问题。 我们已经获得了具有固有的不平衡类问题的机动车碰撞的真实世界数据集。
数据集信息:
探索性数据分析
项目目标
了解加拿大公共道路上致命事故的原因,例如车辆型号,年龄段,道路状况等。
建立机器学习预测模型以对致命和非致命碰撞进行分类。
练习技巧
在这个项目中,我们将学习以下技能
数据清理
探索性数据分析
学习不平衡和成本敏感的方法
欠采样
综合少数采样技术(SMOTE)
高级分类模型,例如随机森林分类器和XGBoost
精确调用(PR)曲线和PR曲线下的面积(AUPR)
接收器工作特性(ROC)曲线和ROC下面积(AUROC)