CE903集团项目弗雷明汉心脏研究
构建预测模型,以预测十年的冠心病风险。
目录
基本信息
旨在准确预测10年内冠心病的总体风险(即患者是否处于危险中)的研究该数据集包含4230名患者和15个属性,在除去缺失值后,剩下3658个总样本。 输出存储在变量'TenYearCHD'下,并显示在丢失缺失值之前和之后的类不平衡:
0类没有风险| 3101 | 84.8%
第1类| 十年风险| 557 | 15.2%
下图显示了标签的不平衡:
我们探索不同的预测分类模型,其目标是调整可以准确地对两个类别进行分类的模型,为此,评估的重点指标将是:
精确
记起
F1分数
精确召回曲线的曲线下面积(AUC)
该指标是在处理不平衡数据集的基础上选择的,为了处理这种不平衡,选择的主要技术是综合少数族裔过采样技术(SMOTE)和随机欠采样。 同样重要的是要注意,由于研究的性质,召回将优先于精度,因为
2022-05-25 11:00:48
1.38MB
Python
1