数据集齐全(60k+数据) 所用方法多,不论老师要求什么,总有符合用得上(分类,逻辑回归,时间序列) 代码+数据集+报告一条龙服务。 内容说明: 数据预处理,数据清洗,对数据进行描述性分析,统计分析,相关性分析,用ggplot2画图。并分别用逻辑回归和决策树分类建立模型。和用时间序列预测数据。 难度不低于课程实践
2024-07-02 10:43:28 17.94MB r语言 逻辑回归 数据挖掘
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。
1
内容概要:10G的Python数据分析与挖掘实战学习视频,包括了Python3数据科学入门与实战,大数据入门到实战篇(Hadoop2.80),Python3实战Spark大数据分析及调度,数据分析与数据挖掘高级实战案例 适合人群:具备一定编程基础,工作1-3年的研发人员 能学到什么:Python3数据科学入门与实战,大数据入门到实战篇(Hadoop2.80),Python3实战Spark大数据分析及调度,数据分析与数据挖掘高级实战案例 阅读建议:10G的Python数据分析与挖掘实战学习视频,包括了Python3数据科学入门与实战,大数据入门到实战篇(Hadoop2.80),Python3实战Spark大数据分析及调度,数据分析与数据挖掘高级实战案例。
2024-01-18 14:27:38 72B Python 数据挖掘 数据分析 Hadoop
1
按照后期进行数据分析的需求,对数据进行预处理。 -描述性统计:选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计,并对分析结果进行图形化的展示(使用ggplot2或者lattice包)。 -推断性统计:选择合适的假设检验方法,分析属性间的相关性、两组数据间是否具有显著性差异,分析结果并给出结论及必要的图形展示。 - 数据挖掘 根据数据特征及需求,利用分类、聚类或时间序列方法挖掘蕴含在数据中的模式及必要的图形展示,用回归模型预测走势 注意:对聚类结果分析聚簇特征   对分类结果计算准确性。   使用时间序列分析方法可判断数据是否存在趋势、周期性等特征,或对数据进行预测。 (分类、聚类、时间序列,回归模型至少使用2种方法)
2023-12-15 14:41:58 3.36MB r语言 开发语言 数据挖掘 数据分析
为在大学生中倡导学习统计、应用统计的良好氛围,促进大学生关注经济社会热点难点问题,适应大数据时代下高校及统计部门对统计人才的培养要求,中国统计教育学会、全国应用统计专业学位研究生教育指导委员会联合举办2021年(第七届)全国大学生统计建模大赛,本届大赛主题为“数据新动能的统计测度研究”,旨在提高大学生数据挖掘、数据分析、运用统计方法及计算机技术处理数据的能力,加强创新思维意识,助力推进统计现代化改革。经过一年的筹备、征集和筛选评议工作,最终选出这26篇优秀论文集结成册,展示当代大学生的统计应用能力和研究水平。 欢迎扫描以上二维码订阅 扫一扫在手机打开 上一篇: 《2022年(第八届)... 下一篇: 关于公布2022年(第... 评论262 0/150 提交 热门评论 相关推荐 关于公布2023年(第九届)全国大学生统计建模大赛报名信息的通知 大赛动态 2023-04-10 10:00595451143 《2023年(第九届)全国大学生统计建模大赛主题解读》(视频) 大赛动态 2023-04-06 09:0046299990 “全国大学生统计建模大赛”成功入
2023-09-29 15:30:40 407.37MB 大数据 k12 数据挖掘 数据分析
1
使用R语言对英雄联盟2020年中韩联赛数据进行数据预处理,分析,可视化,描述性统计,图形化展示(ggplot2),推断性统计,并且使用了帕累托方法分析数据特征。 报告中体现分析目标,解决思路,步骤,核心r函数,运行结果,得到的结论。 报告不少于20页,完整无错误,参考文献五篇,难度不低于课程实践
2023-06-06 15:28:52 2.21MB 数据挖掘 r语言 综合资源 统计分析
2022 APMCM summary sheet 为解决全球变暖对全球气温的影响问题,本文采用ARMA模型、LSTM模型和Stacking模型融合对未来全球温度变化趋势和影响因素预测进行分析。 对于问题一的第一部分,需要每十年的全球平均温度的增幅进行比较并绘制折线图进行表示,分析得到同意2022年3月全球气温的上升确实比以往任何10年期间观测到的升幅都要大的结论。对于问题一的第二部分,我们分别建立了ARMA模型和LSTM模型用时间来拟合过去的温度变化,并预测2100年12月前的温度。对于问题一的第三部分,使用第二部分的两个模型进行预测,预测结果不一致,ARMA模型预测到2100年6月,2050年5月全球平均温度到达20℃,LSTM模型预测为2050年到2300年全球平均气温均低于20℃,所以根据此模型预测趋势推断出以后全球平均气温不会高于20℃。对于问题一的第四部分,根据相关计算得到两个模型的平均绝对误差分别为0.31,0.0195,根据以上数据我们得出LSTM模型预测的更准确。 对于问题二的第一部分,我们使用经纬度和时间两组数据对温度进行预测,为了确保模型的健壮性,我们采用Sta
2023-05-20 23:15:01 3.34MB 数学建模 数据挖掘 数据分析 机器学习
1
本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章最后均附有参考书目和习题
2023-04-11 22:02:10 9.09MB 数据挖掘
1
基于Python实现的新冠疫情数据挖掘案例分析.pdf
2023-04-04 17:56:50 709KB Python 程序 软件开发 论文期刊
基于python的喝咖啡人数和年龄的数据集,csv格式。
2023-03-28 11:13:20 81KB 咖啡 数据挖掘 数据分析 python
1