逻辑回归预测良性和恶性乳腺肿瘤实现二分类(使用 scikit-learn 和 XGBoost 两种方式),可扩展应用到小样本数据的故障诊断领域二分类问题
# 使用逻辑回归预测乳腺肿瘤是良性的还是恶性的
# 数据集为乳腺癌数据集,通过细胞核的相关特征来预测乳腺肿瘤为良性/恶性,这是一个非常著名的二分类数据集
# 数据集包含569个样本,其中有212个恶性肿瘤样本,357个良性肿瘤样本
# 共有32个字段,字段1为ID,字段2为label,其他30个字段为细胞核的相关特征
# scikit-learn实现逻辑回归
# XGBoost 实现逻辑回归
# XGBoost在预测结果上和scikit-learn有些差别,XGBoost的预测结果是概率,而scikit-learn的预测结果是0或1的分类,需要用户自己对其进行转化,程序能够实现scikit-learn 和XGBoost的概率输出和0或1分类输出
# 使用评估指标对分类和预测结果进行评估, 实现scikit-learn 和 XGBoost 两种逻辑回归方式对比分析
1