单元3专案
介绍
目标:
心血管疾病(CVD)是全球主要的死亡原因,每年夺走约1700万人的生命。 我们对该项目的目标是,在预测CVD的患病率时,提供能够识别和定义保护因素和风险因素的最佳模型。 通过了解这些因素,我们将能够针对最佳的一级预防方法,并帮助阻止患者中某些CVD的可能发展。
问题:
就准确性而言,这类数据集表现最佳的“原始”模型是什么?
在对有和没有CVD的患者进行分类时,最重要的因素是什么?
在预测观察结果是否患有CVD时,最重要的风险和保护因素是什么?
方法
在这个项目中,我们将使用OSEMN流程:
获取:我们的数据集是从Kaggle的网站收集的,然后下载到我们计算机上的本地文件中。
检查和清理:这是我们检查干净数据的地方。 在本节中,我们将寻找:离群值,空值,确保某些列中的值合理,并查看每列中的值的类型(分类与数字)。
探索:我们会查看数据以及要素与目标之
1