从UCI机器学习资源库中下载Musk数据集。在此数据集上分别使用PCA和SVD方法进行特征提取,并报告获得的特征值以及特征向量结果,对数据属性进行分析,使用盒图分别对获得的最优属性进行分析和对比。
import pandas as pd
import os
from numpy import *
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sbn
sbn.set(color_codes = True)
plt.rcParams['axes.unicode_minus'] = False
from scipy.stats import kstest
from sklearn.preprocessing import LabelEncoder
from sklearn import preprocessing
import pyecharts
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
针对心肌梗死(myocardial infarction,MI)12导联高频心电信号(high frequency electrocardiogram,HF-ECG)全局特征聚类问题,提出了一种计算机自动聚类算法。收集MIT-BIH标准心电数据库中的健康心电信号、早期心肌梗死心电信号、急性期心肌梗死心电信号、近期心肌梗死心电信号进行处理。应用二维主分量判别法(two dimensional principal component analysis,2D-PCA)对12导联HF-ECG进行融合特征提取,并应用基于均方差属性加权的遗传模拟退火K-means改进聚类算法。与常规K-means聚类算法相比,特征值更加简单直观,所提算法平均分类精度有较大提高,能对12导联HF-ECG进行更有效的聚类。