数据挖掘技术与应用
2021-12-26 13:01:14 21KB 数据挖掘 挖掘技术 数据
本文针对交通数据挖掘领域的交通流预测问题进行研究和实现.主要对数据挖掘技术应用于交通流数据的特征选择和交通流预测模型的建立提出算法.在对采样数据进行清洗后,以分类与回归决策树作为基学习器,采用梯度提升决策树进行回归拟合,计算出交通数据的特征重要度.并以此重要度作为自适应特征选择的依据.其次,采用聚类算法对选取后的特征数据进行聚类分析,缩小样本大小的同时,同类数据更加相似.最后,以实时数据匹配相应聚类作为训练数据集,使用经过人工鱼群算法优化参数后的支持向量机进行交通流预测.本文结尾通过实验数据论证本文所提出的算法和模型.
1
基于数据挖掘技术的高校学生成绩管理研究_李春秋 - 副本.pdf
2021-12-19 18:42:51 334KB 数据挖掘
1
与所有其他癌症相比,乳腺癌是女性发生的第二大癌症。 2004 年记录了大约 110 万例病例。观察到这种癌症的发病率随着工业化和城市化以及早期检测设施的增加而增加。 它在高收入国家仍然更为常见,但现在在包括非洲、亚洲大部分地区和拉丁美洲在内的中等和低收入国家Swift增加。 在所有病例中,乳腺癌是致命的,并且是女性癌症死亡的主要原因,占全球所有癌症死亡人数的 16%。 本研究论文的目的是提出一份关于乳腺癌的报告,我们利用这些可用的技术进步来开发乳腺癌存活率的预测模型。 我们使用了三种流行的数据挖掘算法(朴素贝叶斯、RBF 网络、J48)来开发使用大型数据集(683 例乳腺癌病例)的预测模型。我们还使用了 10 倍交叉验证方法来测量无偏估计用于性能比较目的的三个预测模型。 结果(基于平均准确度乳腺癌数据集)表明,朴素贝叶斯是最好的预测器,对保持样本的准确度为 97.36%(该预测准确度比文献中报道的任何预测准确度都要好),RBF 网络出来了第二个以 96.77% 的准确率,J48 以 93.41% 的准确率排在第三位。
2021-12-19 13:23:16 394KB Breast cancer data
1
MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。
2021-12-11 09:38:53 703KB 论文研究
1
采用数据挖掘技术中ID3决策树算法分析学生成绩.pdf 采用数据挖掘技术中ID3决策树算法分析学生成绩.pdf
2021-12-06 15:57:26 59KB 数据挖掘 ID3 决策树算法 学生成绩
1
采用数据挖掘中的聚类技术,对微软网站日志文件中的用户行为数据进行分析,在用户行为的基础上将用户归为同质的组,从而寻求一种识别典型访问情况的方法。采用了一种“将 SPR-SQ减小的情况屏蔽,只考虑 SPRSQ增加的情况”的处理方法,来实现最佳聚类个数 K的选择。同时,在计算组内偏差的时候,提出了“冗余组内偏差”的概念。在聚类分析阶段完成之后,对每个聚类结果进行“标准化均值”比较,并对其用户行为作了简要分析。
2021-12-03 14:24:52 917KB 自然科学 论文
1
分类的实现—模型构建 Classification Algorithms IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ Training Data Classifier (Model)
2021-11-30 13:50:50 9.28MB 数据挖掘
1
基于FP增长算法的数据挖掘技术.pdf
预测分析数据挖掘项目 要查看我的项目,请单击下面的图像 :backhand_index_pointing_down:
2021-11-16 10:10:40 1.85MB JupyterNotebook
1