驾驶员行为集群
介绍
在此项目中,我们尝试创建一个统计模型以基于CAN总线传感器数据对驾驶员行为进行聚类。 我们将使用层次聚类,根据驾驶员的行为和驾驶方式对其进行识别和分组。 驱动程序的此标识可用于改进。
资料准备
overview.csv 数据集包含42个参数(列)和60个变量(观测值),
数据清理
在进行数据分析之前,我们需要清理数据集: 转换类型,将缺失值替换为零。
通过绘制相关系数矩阵,我们可以考虑具有最低相关系数的变量,它们是解释变异性的变量。 同样,此步骤将使我们减少在分析中要考虑的参数数量。
特征
id :车辆的标识符。 odo :车辆的里程表读数,以km为单位。 dist :时间段内的行驶距离。 fuelc :报告期内行驶,空转和使用取力器时的总油耗(升)。 idle :怠速模式下的发动机运行时间,表示为HH:MM:SS pause :发动机运行时间,暂停表示为HH:MM
1