需求预测挑战 最佳入围 我最好的参赛作品是RMSE = 0.91890,挑战中排名第一的参赛作品是0.75368。 我的参赛作品约占榜首的25%。 我将XGBoost算法用于滞后特征工程。 介绍 使用Kaggle的竞赛。 该竞赛包含一个具有挑战性的时间序列数据集,其中包含每日销售数据,该数据集由俄罗斯最大的软件公司之一-1C公司提供。 任务是预测下个月每个产品和商店的总销售额。 先决条件 码头工人 薄片8 pytest 数据 数据当前已压缩,可以通过以下方式进行膨胀: cd source/ unzip data.zip 训练 在根目录中,使用以下命令打开一个tensorflow 2.3.0 docker容器的bash入口点: make run 如果在GPU机器上,请通过运行以下命令使GPU可见: make run.gpu 训练: python -m source.xgboos
2021-12-29 13:08:15 46.45MB JupyterNotebook
1
CNN图像分类 这个基于CNN的模型将图像分为9类(“飞机”,“汽车”,“鸟”,“猫”,“鹿”,“狗”,“青蛙”,“马”,“船”,“卡车”)使用tensorflow,keras,numpy,scikit-learn,matplotlib
2021-12-29 12:52:30 11KB JupyterNotebook
1
网络入侵的异常检测 资料资讯 该数据集可以从下载 降维 数据集的PCA维数减少 无监督学习 在无人监督的设置中,训练集的班级标签不可用。 在当前问题中,为了反映实际情况,在训练过程中忽略了真实标签。 因此,无监督分类模型用于预测每个记录的真实标签。 我们训练了隔离林,基于聚类的局部离群因子(CBLOF),主成分分析(PCA)和椭圆形信封。 在现实世界中无监督的问题中,由于缺乏事实依据,企业必须验证预测结果。 但是,在此问题中,预测标签已使用真实标签进行了验证,并且以下结果表明,无监督模型预测了很多正面阳性。 半监督学习 在半监督设置中,给出了一个较大的未标记数据集和一个较小的标记数据集。 目标是在整个数据集上训练分类器,该分类器将预测未标记数据点的标记。 在当前问题中,我们创建了84%的未标记数据和16%的标记数据点。 使用自我训练的半监督学习方法,我们训练了Logistic回归和随机森林
2021-12-29 10:10:46 864KB JupyterNotebook
1
Linear_Regression_BoomBike 创建线性回归模型以预测自行车销量 问题陈述 美国一家自行车共享提供商BoomBikes最近在收入方面遭受了大幅下滑。 他们已与一家咨询公司签约,以了解这些共享自行车的需求所依赖的因素。 具体来说,他们想了解影响美国市场上这些共享单车需求的因素。 该公司想知道: 哪个变量在预测共享单车的需求方面很重要 这些变量如何很好地描述了自行车的需求 经营目标 使用可用的独立变量对共享自行车的需求进行建模。 管理层将使用它来了解需求随不同功能的确切变化情况。 他们可以据此操纵业务战略,以满足需求水平并满足客户的期望。 此外,该模型将是管理层了解新市场需求动态的好方法。
2021-12-29 08:52:47 1.27MB JupyterNotebook
1
波束成形基础 Python中的基本延迟和求和波束形成例程,用于演示 点击下面的链接以在Google Colab上打开示例文件
2021-12-28 19:35:28 5KB JupyterNotebook
1
在ClinicalTrials.gov上进行数据挖掘40,000多项肿瘤学研究 是政府资助的注册机构,注册了超过200,000种药物和医疗设备的临床试验。 从2007年开始,法律要求几乎所有在美国拥有至少一个开放站点的重大研究都必须在该站点上注册。 此存储库包含2016年8月下载的40,000项肿瘤学试验的探索性数据分析。
2021-12-28 15:24:46 11.31MB JupyterNotebook
1
ADM 2017 这是本文中的代码存储库,该文章结合了用于STEM / Non-STEM作业预测的增强型深度知识跟踪模型所学习的功能。 抽象的 旨在使用纵向研究的数据来预测教育数据挖掘研究社区以前从未研究过的学生的崭新成果。 具体来说,它有助于研究开发预测模型的方法,这些模型可以预测大学毕业学生的第一份工作是否属于STEM(科学,技术,工程和数学的缩写)领域。 这是基于学生上的学习历史,其形式是在中学期间收集了广泛的点击流数据。 为了应对这一挑战,我们首先使用深度知识跟踪(DKT)模型和增强的DKT(DKT +)模型来估计学生针对不同数学技能的预期知识状态。 然后,我们将与DKT / DKT +预期知识状态相对应的特征与直接从数据集中的学生资料中提取的其他特征相结合,以训练用于STEM /非STEM职位预测的几种机器学习模型。 我们的实验表明,使用组合特征训练的模型通常比仅使用学生个人资
2021-12-28 09:04:36 9.83MB JupyterNotebook
1
毫升心脏疾病 使用随机森林进行心脏病预测和分析
2021-12-27 23:08:37 480KB JupyterNotebook
1
Scikit学习 使用Python进行预测数据分析的机器学习库 Y = X * B1 + B0 系数 B1:坡度 渐变| 陡度线| 线方向| 重量 B0:拦截 偏差| 常数| 回归线与Y轴相交的位置(当X = 0时Y的值) R 2 :测定系数 模型捕获的数据的方差(0.7到0.9是R 2的好值) 大的R 2表示较好的拟合度(模型可以用更好的方法解释预测值与实际值的差异) R 2 = 1对应于SSR = 0(完美拟合) R 2低会导致拟合不足 高R 2导致过度拟合 残差 实际-预测 线性回归 学习一个线性回归模型来估计系数的值 根据另一个要素的值预测要素的值。 简单线性回归 多元线性回归 多项式线性回归 高级线性回归
2021-12-27 22:01:42 9KB JupyterNotebook
1
临近播报
2021-12-27 20:54:10 47.54MB JupyterNotebook
1