Regen_Models
为2020年数据科学案例竞赛创建的模型
RStudio分析
RStudio用于清理和生成类列的列值,这些值再次经过标准化处理以产生更好的调整结果。
Python分析
使用Python对数据集的规范化版本执行模型开发,在其中使用并比较了诸如adaboost,Randomforest,RandomTree等算法。 Python在确定哪些输入和输出提供最大的相关值以及变量的功能重要性方面起着决定性的作用。
使用PCA来显示使用这些模型时可以达到的最大方差进一步证明了这一点。 相关图,特征重要性图,PCA图和混淆矩阵图是使用Python生成的。
WEKA分析
使用常规算法执行以产生最佳值,我们得出的一般算法产生的精度远高于80%。 这里的目的是更好地解释输入和输出之间的关系。 通过WEKA创建的最佳模型文件与缓冲区一起存储在模型文件中,该缓冲区显示了所生成模型的统计信
1