一篇关于基于大数据的数据挖掘的英文论文,很有阅读价值
2022-06-14 13:06:03 629KB 大数据 数据挖掘
1
表 5.2 选取的部分搜狗语料库文章类别及数目表 类别 奥运 房产 娱乐 健康 教育 体育 旅游 汽车 商业 时尚 总计 文章 数目 19940 52405 24233 4049 7539 62751 6480 4889 45616 12342 240244 数据处理及特征提取过程与上节类似,这里只介绍不同过程。 在数据预处理阶段,针对本数据集加入了新的无关词表,如图 5.39所示。 图 5.39 自建无关词表示意图 筛选每个类别中的特征词,所有类别内的保留词情况如图 5.40所示。 图 5.40 所有类别内的保留词情况示意图 利用朴素贝叶斯分类方法,2折交叉验证中每次的 classification_report、分类正确率 以及混淆矩阵如图 5.41-图 5.43所示。
2022-06-14 10:41:19 4.05MB 数据挖掘 文本分类
1
1908年-2019年全世界空难数据收集,含地方,操作员,航次,事故类型,具体时间、描述等。 数据准确,可供专业人士研究学习或作为案例、素材、教案。
2022-06-13 11:10:49 929KB 数据挖掘 数据库 数据分析 行为模式
1
NANAUTOCORR和NANPARCORR计算包含NaNs的数据向量的nlag自相关系数和部分自相关系数。 使用 MATLAB 函数 CORR 并允许排除包括 NaN 在内的数据对。 非显着系数的置信边界是使用 Bartlett 公式给出的,假设是渐近正态性。 基于 MATLAB 函数 CORR。 任何反馈或建议,表示赞赏。
2022-06-13 10:58:10 3KB matlab
1
只有在非常简单的情况下,我们才能将两个时间序列之间的相关性描述为一个数字。 通常它会随着时间和波长而变化。 由于噪声,数据集在短时间尺度上可能不相关,但在较大波长(例如每年)上强烈相关。 该程序将计算(使用小波)作为时间和波长函数的相关性。 反相关 (s=-1) 显示为蓝色,零相关 (s=0) 显示为绿色,正相关 (s=+1) 显示为红色。 图像显示了石油价格和黄金价格之间的相关性,除了 1985 年和 1995 年之间的时间段外,大部分为红色(暗示强正相关)。 请注意,使用此方法比较以不同单位测量的数据集是有效的。
2022-06-13 10:20:33 2KB matlab
1
高教类课件:数据挖掘与知识发现.zip
2022-06-12 21:00:28 7.04MB 高教类课件
关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层面。因此来说,数据挖掘融合了相当多的内容,试图全面了解所有的细节会花费很长的时间。因此我建议你的第一步是用大概三个月的时间了解数据挖掘的几个常用技术:分类、聚类、预测、关联分析、孤立点分析等等。这种了解是比较粗的,目标是明白这些技术是用来干什么的,典型的算法大致是怎样的,以及在什么情况下应该选用什么样的技术和算法。经过初步了解之后,就要进入选题的阶段,选择自
1
时间序列的建模过程,主要是ARMA和ARIMA等模型的建模。
2022-06-12 16:26:25 1.27MB 案例
1
用于执行类似 Facebook Gorilla 的时间序列压缩的 Rust 库
2022-06-12 14:05:34 10KB 算法 rust
信息化 - 数据挖掘 - 挖掘持续性购买行为.pptx
2022-06-12 14:00:13 469KB 互联网