分布式计算-PySpark 该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。 文本分析:PySpark中的逐点相互信息 计算文本文件中出现的所有单词的一个或多个标记的PMI。 图/网络分析:PySpark中的个性化PageRank算法 实现PageRank算法的修改版本,其中参照给定的源节点执行排名。 修改有两个方面: 随机仅跳到源节点 由于节点悬空而造成的质量损失将完全转移到源节点,而不是在整个图形上重新分配 使用Spark数据帧和Spark SQL查询TPCH
2021-11-21 13:07:45 1.96MB graphs pmi networks text-analytics
1
DSO560自然语言处理和文本分析 松弛的工作区 我们将在大多数课程交流中使用Slack工作区,包括提交课堂作业,作业和评分。 您的最终成绩将发布在Blackboard上,但是有关作业的反馈将通过Slack传递。 在第1周的课程之前,请。 请注意,这是与USC Marshall自动创建的工作空间不同的Slack工作空间(我正在创建自己的工作空间,因为我需要额外的权限才能通过Slack chatbot应用自动发送成绩/通知)。 第一周(3月16日,星期二) Google Colab笔记本(请务必保存自己的副本) 第二周 Google Colab笔记本(请务必保存自己的副本) 第三周 第四周 第五周 第六周 第七周 第八周
2021-11-20 06:04:42 35.01MB JupyterNotebook
1
OLAP and data warehousing in SQL are a part of this, but they are not the only tools. However, much of this kind of work has to be done with thirdparty tools, such as report generators, statistical packages, data transformation tools, and so forth.
2021-11-18 00:59:11 2.57MB ETL data warehouse OLAP
1
Paperback: 674 pages Publisher: WOW! eBook; 2nd edition (June 21, 2019) Language: English ISBN-10: 1484243536 ISBN-13: 978-1484243534
2021-11-16 15:45:19 16.33MB python
1
Text_Analytics_with_Python.pdf Text_Analytics_with_Python.pdf Text_Analytics_with_Python.pdf
2021-11-16 15:21:50 6.5MB Text Analytics Python
1
【2018新书】A General Introduction to Data Analytics(数据分析导论)
2021-11-14 20:24:34 7.03MB 数据分析 大数据
1
找出导致员工流失的因素,并探讨一些重要问题,例如“按工作角色和流失率显示离家距离的细分”或“按教育程度和流失率比较平均月收入”。这是由IBM数据科学家创建的虚构数据集。 WA_Fn-UseC_-HR-Employee-Attrition.csv
2021-11-12 11:09:38 48KB 数据集
1
亚马逊云科技 数据分析(Data Analytics)白皮书合集,共25份。 云采用框架概述 云上的 BearingPointBeyond Infonova DBP 数字商务平台 Redshift:成本优化 亚马逊云科技上的 Cerner HealtheDataLab 简介 亚马逊云科技上的大数据分析选项 亚马逊云科技上的原生云数据虚拟化 亚马逊云科技上的运营商级移动分组核心网络 Amazon Web 服务概述 设置多用户环境(用于课堂训练和研究) 城市如何不再浪费资金,实现加速发展和创新 调整云数据仓库的大小 基于强大 Random Cut Forest 的流异常检测 将 Microsoft Power BI 与 云结合使用 将亚马逊云科技资源迁移到新区域 使用 Amazon Elasticsearch Service 记录和监控(几乎)所有资源 使用 Amazon Kinesis 流式处理亚马逊云科技上的数据解决方案 使用亚马逊云科技服务的基因组学数据传输、分析和机器学习 适合新手的成本建模湖内数仓 适用于批处理和流式处理的 Lambda 架构 数字化转型清单:利用技术打破ZF的创新壁垒 无家可归和技术 在迁移到亚马逊云科技时了解应用程序的准备情况 在亚马逊云科技上部署 SAS 的最佳实践 在亚马逊云科技上构建媒体和娱乐预测分析解决方案 针对阿片类药物流行病危机的医疗保健数据分析框架
2021-11-11 21:07:08 17.88MB DataAnalytics 数据分析
BTYDplus BTYDplus 软件包提供了高级统计方法来描述和预测客户的购买行为。 它使用历史交易记录来拟合概率模型,然后该模型可以计算出一个队列以及一个客户级别的管理兴趣量(客户生命周期价值,客户权益,P(活动)等)。 该软件包对软件包进行了补充,提供了几种其他的“为止”模型,这些模型已经在营销文献中发布,但是其实现是复杂且不平凡的。 这些模型是:NBD,MBG / NBD,BG / CNBD-k,MBG / CNBD-k,Pareto / NBD(HB),Pareto / NBD(Abe)和Pareto / GGG。 安装 # install.packages("devtools") devtools::install_github("mplatzer/BTYDplus", dependencies=TRUE) library(BTYDplus) 入门 demo("cdn
2021-11-07 19:52:20 156KB crm rstats predictive-analytics customer-behavior
1
DISCOVERING BUSINESS OPPORTUNITY IN LINKED DATA。。。
2021-11-07 16:33:13 84.72MB analytics
1