数据分析平台七大业务分析 ①具体的七大业务分析,针对不同的数据 ②将数据收到 HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。 ③依据业务深入MapReduce使用 ④数据处理时,针对不同问题如何优化调整等
2021-12-17 14:56:38 51.06MB 离线大数据
1
兰州大学数据挖掘与大数据分析 Assignment 3 数据集(10 分) • 从UCI dataset repository 中下载以下数据集 –(5 分)IRIS –(5 分)Breast Cancer Wisconsin (Diagnostic) Data Set 下载以后,仔细阅读数据集的使用说明,理解其用途及每一列数据的含义。 随机森林和AdaBoost(60 分) •(30 分)分类任务:分别对两个数据集按照自己设定的比例进行训练集、测试集的划分,使 用训练集分别训练随机森林模型跟AdaBoost(基分类器采用决策树模型) 分类器,并分别用测 试集测试其性能; •(30 分)回归任务:忽略两个数据集中的类别属性,从其余属性中任选一个作为回归任务的 目标属性;分别对两个数据集按照自行设定的比例进行训练集、测试集的划分,使用训练集 分别训练随机森林跟AdaBoost 回归器,并分别用测试集测试其性能。 随机森林跟AdaBoost 分类器可直接使用sklearn 包中的实现。 撰写技术报告(30 分) 以科技论文的形式撰写assignment 的技术报告。 • 自行设计实验,达到以下目的 – 对比两个模型在同样数据上的分类、回归的性能(使用合适的指标),并对结果进行分 析; – 对于回归任务,体现不同大小的训练集对回归器性能的影响(无需交叉验证); • 实验部分应对数据集进行介绍,参考文献中给出该数据集的原始出处并在报告正文中第一次 出现给数据集的地方添加对文献的引用; 1 • 对实验结果的呈现,必须以文字形式进行阐述、解释或者说明,不能只是简单地展示结果的 图,否则会减分;调整图的大小,使之清晰美观,否则会减分; • 报告应以正规的书面语言进行客观的阐述,切勿使用口语化的表达方式或使用随意的网络用 语; • 插图应使用矢量图,图、表要添加编号与标题,并在正文中引用其编号; • 报告中对使用的算法应引用其出处的参考文献,引用格式为用方括号括起来的上标数字形式, 按引用的次序依次顺序编号,并在报告末尾添加“参考文献”一节;每一条文献条目中至少 应包括作者名,文章标题,期刊名,期号,卷号,出版年月,pp:页码范围,DOI 号或官网的 URL。 必须提交的材料 • 下载的数据集:各个数据集各自存入一个文件中,文件名为程序中使用该数据集时的名称; • python 的源程序:每个源程序存入一个文件,文件名能体现其作用; • pdf 版本的技术报告; • 以上三部分压缩成一个压缩包,以学号+ 姓名对压缩包进行命名。
2021-12-17 14:03:10 2.79MB python
《触手可及的大数据分析工具tableau案例集》是tableau入门级的数,简洁的语言,配上丰富的实例讲解,很容易就可以上手tableau,帮助你高效处理数据,并没有精美的仪表盘制作,让你的数据可视化更上一层楼。有需则自行下载,一起学习。
2021-12-16 19:05:57 80.56MB tableau
1
大数据分析及环境搭建.
2021-12-16 18:07:53 23.58MB 大数据 数据分析
1
Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析 Python金融大数据分析
2021-12-16 14:48:49 47.48MB Python 大数据 分析 金融
1
纽约市出租车数据分析 在这个最后的小组项目中,我们以“理解出租车经济学”为主题分析纽约出租车数据,它是在 Map-Reduce 算法中使用 Hadoop Streamming API 和 Python 实现的。 调查的问题 不同社区的收入有何不同,它与社区的家庭收入中位数有何关联? 收入如何随时间变化? 出租车公司赚更多(或更少)钱的月份还是季节? 出租车司机在没有乘客的情况下可以行驶多久? 这如何随时间变化? 重大活动期间收入会受到影响吗? 例如,游行、总统访问、风暴 数据源 2013年出租车数据行程数据: : 票价数据: : 人口普查数据人口统计: : 收入信息: : 人口普查区域的形状文件: : (搜索“tract”) 天气数据 -- 选择“Surface Data, Hourly Global”,然后在选择地区的时候,选择NY和三个主站(Centra
2021-12-15 21:09:39 1.83MB HTML
1
华中科技大学大数据分析 实验内容 lab1 wordcount算法及其实现 lab2 PageRank算法及其实现 lab3 关系挖掘实验 lab4 kmeans算法及其实现 lab5 推荐系统算法及其实现
2021-12-15 17:05:40 6.3MB python
Python for Data Analysis Data Wrangling with Pandas, NumPy, and IPython
2021-12-13 11:15:23 10.01MB Python
1
51job大数据分析师岗位情况项目分析,包括数据源、中间生成的txt,png,和源代码
2021-12-13 11:09:53 20.27MB Pytho
1
Python金融大数据分析pdf版是一本适合金融行业开发人员阅读学习的专业Python教程电子书,作者将各种晦涩的概念阐述得通俗易读,案例讲解也十分清晰,欢迎需要的朋友来绿色资源网下载!
2021-12-12 22:57:00 59.23MB Python 金融大数据
1