首先,选取家庭用户用电聚类分析为主题,阐述了用户聚类分析的原理和K-means算法的流程,建立以家庭住房面积、年度用电量、家庭人口数、家电数量维度的数据模型;然后,然后详细的阐述了Hadoop的分布式文件系统HDFS和并行处理框架MapReduce的工作原理;接着,针对K-means容易陷入局部最优解的缺陷,对原始的K-means算法进行了改进,即将家庭用户对象用电数据密度的大小作为重要参考;在MapReduce模型下预先对初始簇中心进行优化,准确定位簇中心,然后将每个簇所属的数据集进行并行处理。从而提高海量用电数据处理效率,缩短计算时间。还提出了一种基于 Hadoop的智能电网数据分析平台的
1