医疗保健行业包含非常大的敏感数据,需要非常小心地处理。 糖尿病是世界范围内日益严重的致命疾病之一。 医疗专业人员需要一个可靠的预测系统来诊断糖尿病。 不同的机器学习技术可用于从不同角度检查数据并将其概括为有价值的信息。 如果应用某些数据挖掘技术,海量数据的可访问性和可用性将能够为我们提供有用的知识。 主要目标是确定新模式,然后解释这些模式,为用户提供重要且有用的信息。 糖尿病会导致心脏病、肾病、神经损伤和失明。 以有效的方式挖掘糖尿病数据是一个至关重要的问题。 将发现数据挖掘技术和方法,以找到适当的方法和技术,以对糖尿病数据集进行有效分类并提取有价值的模式。 在这项研究中,医学生物信息学分析已经完成以预测糖尿病。 WEKA 软件被用作诊断糖尿病的挖掘工具。 Pima Indian 糖尿病数据库来自用于分析的 UCI 存储库。 对该数据集进行了研究和分析,以建立一个预测和诊断糖尿病疾病的有效模型。 在这项研究中,我们旨在应用自举重采样技术来提高准确性,然后应用朴素贝叶斯、决策树和 (KNN) 并比较它们的性能。
1