机器学习算法KNN(K近邻)应用实例
使用KNN(K近邻)算法对是否容易得糖尿病问题进行预测。
资源中包括完成的KNN算法训练和实现过程,以及用于机器学习的糖尿病数据集。
数据特征包括:
Pregnancies:怀孕次数
Glucose:葡萄糖测试值
BloodPressure:血压
SkinThickness:表皮厚度
Insulin:胰岛素
BMI:身体质量指数
DiabetesPedigreeFunction:糖尿病遗传函数
Age:年龄
Outcome:是否为糖尿病
训练的过程包括数据的预处理、数据的可视化及EDA分析。
然后将数据划分成训练集和测试集,调用sklearn中的KNeighborsClassifier模型对数据进行训练。最后使用混淆矩阵、F1、精确率等指标对模型效果进行评估。
本应用实例可以方便与对KNN算法的应用过程有一个直观的了解和掌握。提升算法的应用实用性。
引入的库函数主要有如下:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test