This book evolved from material developed over several years by Anand Rajaraman and Jeff Ullman for a one-quarter course at Stanford. The course CS345A, titled “Web Mining,” was designed as an advanced graduate course, although it has become accessible and interesting to advanced undergraduates. When Jure Leskovec joined the Stanford faculty, we reorganized the material considerably. He introduced a new course CS224W on network analysis and added material to CS345A, which was renumbered CS246. The three authors also introduced a large-scale data-mining project course, CS341. The book now contains material taught in all three courses.
2021-09-05 17:46:32 2.91MB Mining of Massive Datasets.pdf
1
Mining of Massive Dataset.rar
2021-09-05 17:37:23 33.64MB Mining of Massiv
1
渐变光机 LightGBM是使用基于树的学习算法的梯度增强框架。 它被设计为分布式且高效的,具有以下优点: 训练速度更快,效率更高。 降低内存使用率。 更好的准确性。 支持并行和GPU学习。 能够处理大规模数据。 有关更多详细信息,请参阅。 受益于这些优势,LightGBM被广泛用于许多机器学习竞赛的中。 在公共数据集上进行的表明,LightGBM可以在效率和准确性上均优于现有的Boosting框架,并且显着降低了内存消耗。 此外, 表明,LightGBM可通过使用多台机器进行特定设置的训练来实现线性加速。 入门和文档 我们的主要文档位于并从该存储库生成。 如果您不熟悉LightGBM,请按照站点上进行。 接下来,您可能需要阅读: 显示常见任务命令行用法的。 LightGBM支持的和算法。 是您可以进行的自定义的详尽列表。 和可以加快计算速度。 是有关超参数的详细指南。 为LightGBM超参数()提供自动调整。 贡献者文档: 。 查阅《 。 新闻 请参考页面上的变更日志。 一些重要的更新日志可在“页面上找到。 外部(非官方)存储库 Optun
2021-09-04 16:56:17 7.03MB microsoft python machine-learning data-mining
1
leetcode 锈DotA 2 中的文本分析:通过跨团队聊天预测胜利 斯里加内什·戈帕尔、里斯·布拉姆、贾里德·罗伯逊、韦恩·吉 允许匿名使用。 抽象的 DotA 2 是一款在线 MOBA 视频游戏,让两支由五名玩家组成的团队在基于策略的争吵中相互对抗以摧毁另一个基地。 我们从开源 DotA 2 数据收集平台 OpenDota API () 收集了大约 31,000 场 DotA 2 比赛的数据。 整理匹配后,我们将快速聊天 ping 和预设短语转换为与常规聊天的格式保持一致。 我们使用空格作为我们唯一的分隔符,从这个字符串化的游戏聊天中创建了单个字数的数据框,将每个游戏分成 2 行以区分输赢。 有了这个数据框,我们运行了几个分类模型,试图根据游戏聊天来预测一个团队是否会获胜。 我们的峰值分类率来自我们的随机森林分类器模型,正确预测结果的概率为 61.48%。 这可能看起来很低,但这比预期的要好,因为游戏是通过匹配来平衡技能和行为得分的,因此克服标准化因素非常好。 一、简介 1.1 动机 已经有许多研究和研究项目试图基于统计来预测游戏结果,这不是一个陌生的概念。 然而,这些项目已经植
2021-09-01 14:18:00 1.31GB 系统开源
1
最新的修订版,啃下这个就无敌啦。10th printing with corrections, Jan 2013
2021-08-30 10:58:23 12.69MB machine learning data mining
1
Wiley-Applied Data Mining Statistical Methods For Business And Industry.pdf
2021-08-28 10:45:25 5.56MB Data Mining Statistical Business
1
安赛乐米塔尔钢铁ArcelorMittal-201405_Global Metals, Mining & Steel Conference_Bank of America Merrill Lynch_By_CFO.pdf
2021-08-27 18:01:24 6.03MB 资料 商业计划书
salesPredict ARIMA模型简介 ARIMA模型提供了基于时间序列理论,对数据进行稳定化处理(AR和MA过程),模型定阶(自动差分过程),参数估计,建立模型,可以进行模型进行检验。在Python中statsmodel提供了完整的的解决方案,包括窗口选择,自动定阶和稳定性检测等等算法。 预测策略 这样的好处是,月上旬和中旬的实际销量可以作为先验知识,提高模型预测的准确率。 环境 Windows 10 Python 3.6.5 依赖包 pip install -r requirements.txt 程序执行 python sales.py 建模过程 预测效果测试 线上预测效果 截至到
2021-08-27 17:44:25 254KB python data-science data data-mining
1
CSMATH-2020 关于本课程 该数学课程是为第一年的博士课程而设计的。计算机科学及相关领域的学生。本课程重点介绍人们当前所需的方法,技术,数学和算法。我们正在竭尽全力为该领域的新手提供数学知识,并提供直观的解释,清晰的概念以及生动的应用示例。该课程包括基础统计学习,非线性优化,偏微分方程和应用函数分析。 有关本课程 本课程教授在计算机科学和信息处理研究领域相关的数学方法论,技术,概念以及基本算法。试图以数学的直观引导,清晰的概念解释,生动的应用实例,为学生开始进入这些领域的研究提供一个数学知识的导引。 本课程的主要教学内容包括多元统计方法初步,非线性优化算法,偏微分方程以及应用泛函方法等四个单元。多元统计方法单元,从统计的角度,对计算机科学中如计算机视觉和模式非线性优化单元称为主流非线性优化方法及其相关特性比较。偏微分方程单元,着重于介绍水平集方法,椭圆方程和泊松方程的替代理论以及相
2021-08-22 18:39:45 118.63MB python machine-learning data-mining mathematics
1
本书全面介绍了数据挖掘,涵盖了五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。这样读者在透彻地理解数据挖掘的基础的同时,还能够了解更多重要的高级主题。   《数据挖掘导论(完整版)》是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。《数据挖掘导论(完整版)》特色与许多其他同类图书不同,《数据挖掘导论(完整版)》将重点放在如何用数据挖掘知识解决各种实际问题。
2021-08-22 09:47:07 47.53MB Book
1