它是一个面向新手和专家的开源的机器学习和数据可视化工具,带有很多用于数据挖掘或机器学习模型的交互式数据分析工作流程;另外,它绑定了Python语言进行脚本开发。包含一系列数据挖掘流程的组件,比如数据预处理,建模,模型评估以及可视化。
数据预处理主要包括:数据合并(将两个不同数据集的指定特征合并为同一数据集);数据采样,数据异常点去除以及相关性检验(协方差),rank以及置乱等
模型主要包括:CN2规则归纳,k近邻,决策树,随机森林,支持向量机,线性回归,逻辑回归,朴素贝叶斯,adaboost,神经网络,随机梯度下降等
无监督模型有:距离矩阵,t-SNE,层次聚类,K-means,louvain聚类,PCA,MDS等
另外,还支持文本分析,词云可视化等
模型评估主要有:交叉检验,混淆矩阵,ROC曲线,lift曲线等
2021-08-25 10:04:51
382.51MB
数据分析工具
1