SPORF-稀疏投影倾斜随机森林(aka RerF,Rander Forest或Random Projection Forests)-是由开发的算法 类似于由开发的Random Forest-Random Combination(Forest-RC 。 两种算法之间的区别是随机线性组合的发生位置:Forest-RC在树级别组合特征,而RerF在节点级别组合特征。 配套 内存优化的RandomForest和RerF的C ++实现。 Python对packedForest的绑定。 RerF的R和C ++实现。
2023-03-11 10:28:53 35.03MB python r cpp random-forest
1
心血管疾病使用决策树和随机森林分类器 决策树算法可用于预测心血管疾病并使用随机森林分类器和探索性数据分析来提高准确性
2023-02-08 15:13:46 778KB
1
预测航空公司延误 使用Hadoop通过2007年和2008年的数据预测奥黑尔机场的航班延误。使用Pig脚本,构建了一个特征矩阵,通过该矩阵我们可以训练和预测航空公司的延误,准确度约为80% 项目详情 建立了一个预测航空公司延误的模型,准确度约为80% 将航空公司数据集与UCI Repo的740万飞行记录一起使用 利用Pydoop实现MapReduce以构建特征矩阵 使用Pig脚本生成功能 使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建 技术指标 Python 2.7 Hadoop 2.7.3 Scikit学习 大熊猫 线性回
2022-12-29 17:10:00 6KB python hadoop random-forest scikit-learn
1
Python机器学习 通用机器学习算法的Python代码
1
更新(2021年2月1日) 注意力! 该存储库将不再维护,请检查我们新的Deep Forest存储库,以提高效率。 详细信息在: 仓库: : 文档: : PyPI上的软件包: ://pypi.org/project/deep-forest/ 您可以通过pip安装较新版本的gcForest pip install deep-forest 此存储库中的旧版本(gcForest v1.1.1)仅用作该算法的说明。 gcForest v1.1.1来了! 这是gcForest实施的官方克隆。(大学的Web服务器有时不稳定,因此我们将官方克隆放在github上) 软件包官方网站: : 该软件包按“原样”提供,免费供学术使用。 您可以自行承担运行风险。 出于其他目的,请联系教授( )。 说明:[1]中提出的gcForest的python 2.7实现。 gcFores
1
项目3:多分类 作者:Khyatee Desai和David Shin 概述 Spotify一直在寻求创建其他功能和播放列表,以使用户发现来自不同流派和时代的新歌手。 新增内容可能会导致现有用户续订该应用程序的每月订阅,并希望扩展其音乐种类。 以下分析旨在证明音乐可以根据其音乐属性所源自的时间段进行分类。 通过类型分类发现新歌手不仅使用户受益,而且使歌手和Spotify受益。 未知的艺术家将从更多的发现方法中受益,Spotify可能获得更多的收入和更多的数据。 业务问题 要开发最佳功能和播放列表,我们需要了解在按时间段对音乐进行分类时哪些功能最重要。 创建新功能可能会推动客户续订并吸引新用户的兴趣。 数据 我们使用的主要数据集包含1921-2020年间歌曲属性。 Spotify数据包含每个轨道的音频功能,如下所示: 钥匙 值类型 值说明 duration_ms 整型 轨道的持续时间(以
2022-11-15 21:05:39 31.67MB spotify random-forest xgboost logistic-regression
1
forestError:随机森林预测误差估计的统一框架 1.0.0版更新 该软件包已更新,以反映偏差的常规征兆(平均预测减去平均响应)。 该软件包的早期版本返回负偏差(平均响应减去均值预测)。 因此,必须颠倒涉及此程序包输出的任何偏差的代数运算的符号,以保持其预期的效果。 概述 forestError软件包使用Lu和Hardin(2021)中引入的插件方法为随机森林预测估算条件均方预测误差,条件偏差,条件预测间隔和条件误差分布。 这些估计值取决于测试观测值的预测值,并考虑可能的响应异质性,随机森林预测偏差以及整个预测器空间中的随机森林预测变异性。 在当前状态下,此程序包中的main函数接受使用以下任何程序包构建的回归随机森林: randomForest , randomForestSRC , ranger ,和 quantregForest 。 安装 在R运行以下代码行将从CRAN
2022-10-29 10:33:56 93KB machine-learning r statistics random-forest
1
Loan_Default_Prediction:贷款违约预测的端到端机器学习过程,机器学习的最终项目ISpring2018 @ GWU
2022-09-12 10:11:45 1.08MB python data-science machine-learning random-forest
1
数据科学研讨会 这是出版的的资料库。 它包含从头到尾完成该课程所必需的所有支持项目文件。 要求和设置 要开始使用项目文件,您需要: 设定 关于数据科学研讨会 为您提供了开始从事各种数据科学项目所需的基本技能。 本书将逐步介绍数据科学项目的基本组成部分,然后将所有部分放在一起以巩固您的知识并在现实世界中应用您的知识。 您将学到什么 探索有监督学习与无监督学习之间的主要区别 使用scikit-learn和pandas库处理和分析数据 了解关键概念,例如回归,分类和聚类 探索先进的技术来提高模型的准确性 了解如何加快添加新功能的过程 简化您的机器学习工作流程以进行生产 相关工作坊 如果您发现此存储库很有用,则可能需要查看我们的其他一些研讨会标题: 应用TensorFlow和Keras研讨会
2022-07-06 18:43:48 160.03MB python machine-learning random-forest regression
1
通过多模型监督学习算法进行收入预测 寻找慈善捐助者 胡安·罗隆(Juan E.Rolon),2017年 项目概况 在此项目中,我采用了几种监督算法,以使用从1994年美国人口普查中收集的数据准确地预测个人收入。 我们执行各种测试过程,以从初步结果中选择最佳候选算法,然后进一步优化该算法以对数据进行最佳建模。 此实现的主要目标是构建一个模型,该模型可以准确地预测个人的收入是否超过50,000美元。 在非营利机构中,组织可以靠捐赠生存,这种任务可能会出现。 了解个人的收入可以帮助非营利组织更好地理解要请求的捐赠额,或者是否应该从一开始就伸出援手。 虽然直接从公共来源确定个人的一般收入等级可能很困难,但我们可以从其他公共可用功能中推断出此价值。 该项目是从Udacity获得机器学习工程师Nanodegree所需条件的一部分。 安装 此项目需要Python 2.7和已安装的以下Python
1