数据科学研讨会 这是出版的的资料库。 它包含从头到尾完成该课程所必需的所有支持项目文件。 要求和设置 要开始使用项目文件,您需要: 设定 关于数据科学研讨会 为您提供了开始从事各种数据科学项目所需的基本技能。 本书将逐步介绍数据科学项目的基本组成部分,然后将所有部分放在一起以巩固您的知识并在现实世界中应用您的知识。 您将学到什么 探索有监督学习与无监督学习之间的主要区别 使用scikit-learn和pandas库处理和分析数据 了解关键概念,例如回归,分类和聚类 探索先进的技术来提高模型的准确性 了解如何加快添加新功能的过程 简化您的机器学习工作流程以进行生产 相关工作坊 如果您发现此存储库很有用,则可能需要查看我们的其他一些研讨会标题: 应用TensorFlow和Keras研讨会
2022-07-06 18:43:48 160.03MB python machine-learning random-forest regression
1
通过多模型监督学习算法进行收入预测 寻找慈善捐助者 胡安·罗隆(Juan E.Rolon),2017年 项目概况 在此项目中,我采用了几种监督算法,以使用从1994年美国人口普查中收集的数据准确地预测个人收入。 我们执行各种测试过程,以从初步结果中选择最佳候选算法,然后进一步优化该算法以对数据进行最佳建模。 此实现的主要目标是构建一个模型,该模型可以准确地预测个人的收入是否超过50,000美元。 在非营利机构中,组织可以靠捐赠生存,这种任务可能会出现。 了解个人的收入可以帮助非营利组织更好地理解要请求的捐赠额,或者是否应该从一开始就伸出援手。 虽然直接从公共来源确定个人的一般收入等级可能很困难,但我们可以从其他公共可用功能中推断出此价值。 该项目是从Udacity获得机器学习工程师Nanodegree所需条件的一部分。 安装 此项目需要Python 2.7和已安装的以下Python
1
Nyc-Taxi-Kaggle-挑战 目标 Kaggle竞赛预测纽约出租车的行驶时间。 该项目的报告在capstone.pdf。 (在这个项目中,我提供了许多链接,如果您是初学者,可以通过这些链接来弄清楚您的概念,如果不理解的话,可以通过project和readme中提供的链接和pdf来了解。) 问题陈述 在本报告中,我们使用来自纽约市出租车和高级轿车委员会的数据来考察Kaggle竞赛,该竞赛要求竞争对手预测纽约市出租车旅行的总行驶时间(trip_duration)。 Kaggle提供的数据是作为CSV文件提供的结构化数据。 CSV文件中的数据包括多种格式:时间戳,文本和数字数据。 这是回归分析,因为输出(总行驶时间)是数字。 我将使用几种机器学习方法来完成预测任务,这些方法是线性回归,k最近邻回归,随机森林和XGBoost。 将使用均方根对数误差对模型进行评估。 总览 我使用Jupyter_Notebook在dekstop上执行此项目,并且在使用python的远程服务器上也无需使用Jupyter_notebook来执行。 软件和库 Python 3 Scikit-learn:Pyt
2022-06-05 16:04:07 23.28MB python machine-learning deep-learning random-forest
1
很棒的决策树研究论文 精选的决策,分类和回归树研究论文清单,包括来自以下会议的实现: 机器学习 计算机视觉 自然语言处理 数据 人工智能 关于,,,和论文的类似集合以及实现。 2020年 DTCA:可解释的索赔验证基于决策树的共同注意网络(ACL 2020) 吴连伟,袁Yuan,赵永强,梁浩,安布琳·纳齐尔 隐私保护梯度提升决策树(AAAI 2020) 李勤彬,吴兆敏,温则宜,何炳生 实用联合梯度提升决策树(AAAI 2020) 李勤彬,温则宜,何炳生 最优决策树的有效推断(AAAI 2020) 弗洛伦特·阿韦拉内达(Florent Avellaneda) 使用缓存分支和边界搜索学习最佳决策树(AAAI 2020) 盖尔·阿格林(Gael Aglin),齐格弗里德·尼森(Pierre) 决策树集合分类器的抽象解释(AAAI 2020) 弗朗切斯科·朗佐托(Marco Zanella) (多任务)梯度增强树的可扩展功能选择(AISTATS 2020) Cuize Han,Nikhil Rao,Daria Sorokina,Karthik Subbia
1
手机价格预测 使用的数据集: : 数据集的简短描述: 功能名称 功能说明 类型 ID ID 数字 电池电量 电池可存储的总能量(以mAh为单位) 数字 蓝色的 有没有蓝牙 布尔型 时钟速度 微处理器执行指令的速度 数字 双SIM卡 是否支持双卡 布尔型 fc 前置摄像头百万像素 数字 four_g 是否有4G 布尔型 int_memory 内部存储器(以千兆字节为单位) 数字 m_dep 移动深度(厘米) 数字 mobile_wt 手机重量 数字 n_cores 处理器核心数 数字 个人电脑 主相机百万像素 数字 px_height 像素分辨率高度 数字 px_width 像素分辨率宽度 数字 内存 随机存取内存(以兆字节为单位) 数字 sc_h 手机屏幕高度(厘米) 数字 sc_w 手机屏幕宽度,以厘米为单位 数字 谈话时间 通话将持续最长的电池
1
| | 什么是新的? ThunderGBM获得了IEEE计算机协会出版委员会颁发的IEEE并行和分布式系统事务奖(2019年最佳论文奖)(在987篇论文中,有1篇是因为“ Zeyi Wen ^,Jiahuaai Shi *,Bingsheng He,Jian Chen,Kotagiri Ramamohanarao和李勤彬*,“为高效梯度提升决策树训练开发GPU”,IEEE并行和分布式系统交易,第30卷,第12期,2019年,第2706-2717页。”)。 查看更多详细信息: , 总览 ThunderGBM的任务是帮助用户轻松有效地应用GBDT和随机森林来解决问题。 ThunderGBM利用G
2022-05-08 14:50:49 11.94MB machine-learning random-forest gpu cuda
1
检测帕金森病 帕金森氏病与运动障碍症状有关,例如震颤,僵硬,运动迟缓和姿势不稳。 运动迟缓和僵硬的表现通常在疾病的早期。 这些对患者的笔迹和素描能力有显着影响,显微照相术已被用于帕金森氏病的早期诊断。 虽然人的笔迹受许多因素(例如语言熟练程度和教育程度)的影响,但发现绘制形状(例如螺旋形)是一种非侵入性且独立的措施。 怎么跑 python detect_parkinsons.py --dataset dataset/spiral python detect_parkinsons.py --dataset dataset/wave
2022-05-07 16:10:17 20.73MB python random-forest scikit-learn sklearn
1
数据集名称:成人自闭症谱系筛查数据 摘要:自闭症谱系障碍(ASD)是一种与显着的医疗费用有关的神经发育疾病,早期诊断可以显着减少这些疾病。 不幸的是,等待ASD诊断的时间很长,而且程序的成本效益也不高。 自闭症的经济影响和全世界ASD病例数量的增加表明,迫切需要开发易于实施和有效的筛查方法。 因此,迫切需要进行时间高效且可访问的ASD筛查,以帮助卫生专业人员并告知个人是否应进行正式的临床诊断。 全球ASD病例数的快速增长需要与行为特征相关的数据集。 但是,这样的数据集很少,因此很难进行全面的分析以提高ASD筛选过程的效率,敏感性,特异性和预测准确性。 目前,与临床或筛查有关的自闭症数据集非常有限,并且大多数都是自然遗传的。 因此,我们提出了一个与成人自闭症筛查有关的新数据集,其中包含20个特征,可用于进一步分析,特别是在确定有影响力的自闭症特征和改善ASD病例分类方面。 在此数据集中,我们
1
BMI健康状况预测 数据可视化和机器学习来预测健康状况(BMI:体重指数) 随机森林分类 该数据集取自 。 描述 性别:男/女 高度:数(厘米) 重量:数量(千克) 索引:0-极度弱1-极度2-正常3-超重4-肥胖5-极度肥胖 kaggle笔记本内核可在找到。
1
Python中的轨迹分析和分类(Pandas和Scikit Learn) 一项针对数据挖掘研究生课程的大学项目。 给我们一个trainset,其中地理点与时间间隔成对。 首先,我们清理数据集,然后形成轨迹(具有相应的路线ID)。 本部分的最后一步是根据_their的total_distance和最大距离(它们的两个点之间)过滤掉一些轨迹。 该项目的目标首先是计算test_set_a1 / a2.csv和train_set.csv的轨迹之间的轨迹相似度。 用于该算法的算法是: 快速动态时间规整(Fast-DTW) ,取自 我实现的最长公共子序列算法。 每次考虑的距离是点的Haver
2022-04-13 21:36:53 24.33MB python machine-learning random-forest dtw
1