糖尿病是世界上的慢性病之一,有 2.46 亿人患有这种疾病,根据世界卫生组织 (WHO) 的报告,到 2025 年,这一数字将增加到 3.8 亿。许多其他使人衰弱和严重的健康问题可能如果这种疾病没有得到诊断或仍然不明,则会进一步发展。 机器学习 (ML) 技术现在被用于教育、医疗保健、商业、推荐系统等各个领域。医疗保健数据复杂且维数高,并且包含不相关的信息——因此,预测准确度低。 本研究使用了皮马印第安人糖尿病数据集,它包含 768 条记录。 首先,将缺失值替换为中位数,然后进行线性判别分析。 使用 Python 编程语言,结合五种分类算法应用特征选择技术:支持向量机 (SVM)、多层感知器 (MLP)、逻辑回归、随机森林和决策树。 本文的目的是比较不同的分类算法,以便更准确地预测患者的糖尿病。 应用 K 折交叉验证,考虑 k 为 2、4、5 和 10。采用的性能参数为:准确度、精度、召回率、F 分数和曲线下面积。 我们的研究发现,MLP 分类器的最高准确率为 78.7%,召回率为 61.26%,准确率为 72.45%,k = 4 时 F1 得分为 65.97%。
1