搜索【Kaggle|Give】的结果

芝加哥犯罪数据（2001-2017）数据集

数据记录了美国芝加哥市从2001年至2016年6000000笔犯罪记录，包括时间、地点、区域、案件描述、社区、经纬度坐标等。

2022-06-06 11:19:30 479.48MB 美国社会数据 犯罪统计 Kaggle

1

Kaggle-WhatsCooking-MachineLearning:随机森林分类器以食材为特征确定美食

Kaggle-WhatsCooking-机器学习来源目标-使用食谱成分来预测美食类别语言-Python 套餐-NumPy，Pandas，Sci-Kit Learn 数据文件概述 >>df_train.info() Int64Index: 39774 entries, 0 to 39773 Data columns (total 3 columns): cuisine 39774 non-null object id 39774 non-null int64 ingredients 39774 non-null object dtypes: int64(1), object(2) >>df_train.head()

2022-06-06 03:05:11 3KB Python

1

NYTaxi_XG_Boost_Challenge-kaggle_challenge：我正在尝试NYC出租车持续时间预测Kaggle挑战。我将结合使用Pandas，Matplotlib和XGBoost作为python库，以帮助我理解和分析Kaggle提供的出租车数据集。目标是建立出租车持续时间的预测模型。我还将使用Google Colab作为我的Jupyter笔记本。我也将在没有Google colab的情况下预测正常系统

Nyc-Taxi-Kaggle-挑战目标 Kaggle竞赛预测纽约出租车的行驶时间。该项目的报告在capstone.pdf。（在这个项目中，我提供了许多链接，如果您是初学者，可以通过这些链接来弄清楚您的概念，如果不理解的话，可以通过project和readme中提供的链接和pdf来了解。）问题陈述在本报告中，我们使用来自纽约市出租车和高级轿车委员会的数据来考察Kaggle竞赛，该竞赛要求竞争对手预测纽约市出租车旅行的总行驶时间（trip_duration）。 Kaggle提供的数据是作为CSV文件提供的结构化数据。 CSV文件中的数据包括多种格式：时间戳，文本和数字数据。这是回归分析，因为输出（总行驶时间）是数字。我将使用几种机器学习方法来完成预测任务，这些方法是线性回归，k最近邻回归，随机森林和XGBoost。将使用均方根对数误差对模型进行评估。总览我使用Jupyter_Notebook在dekstop上执行此项目，并且在使用python的远程服务器上也无需使用Jupyter_notebook来执行。软件和库 Python 3 Scikit-learn：Pyt

2022-06-05 16:04:07 23.28MB python machine-learning deep-learning random-forest

1

kaggle-talkingData:Kaggle TalkingData AdTracking欺诈检测挑战第48个解决方案

Kaggle TalkingData AdTracking欺诈检测挑战第48解决方案，竞赛链接： : ：笔记本电脑版本：脚本版本，在私有LB上大约为0.9824 blending.ipynb：混合历史模型，这使我提高了约0.0002 FTRL.ipynb：由于时间有限，没有尝试过在完整的训练数据上运行此代码需要96GB RAM和128G交换空间一些解决方案作为参考火车日志请参阅

2022-06-03 04:40:17 23KB JupyterNotebook

1

talkingdata-adtracking-欺诈检测：Kaggle竞赛（前8％）

talkingdata-adtracking欺诈检测 Kaggle比赛（前8％）数据集的前景我们的目标是预测用户点击广告后是否会下载该APP。用户可能欺诈性地点击广告只是为了赚钱。特征： IP：用户所在的地区或国家与他或她是否欺诈性地点击广告有关。（一个）。欺诈用户可以使用同一IP多次单击同一AD。（b）。但是，同一公司中的家庭或人可以共享同一IP，这意味着同一IP可以包含常规用户和欺诈用户。按设备，操作系统，渠道等分组可以进一步区分。 APP ：（可以按IP使用分组）用于营销的应用ID 设备：用户手机的设备类型ID（例如，iphone 6 plus，iphone 7，华为mate 7等）操作系统：（可以按IP分组使用）用户手机的操作系统版本ID 频道：移动广告发布者的频道ID click_time：（一个）。普通用户和欺诈用户在单击AD时会有

2022-06-03 04:31:20 68KB JupyterNotebook

1

kaggle-avito:Avito CTR竞赛的获奖解决方案

kaggle-avito Avito CTR竞赛的获奖解决方案可以在.pdf文件中找到该解决方案的一些高级说明。如何运行：将_fast_10pct_run.R和_full_100pct_run.R顶部的文件夹更改为指向存储数据文件的位置（推荐）运行_fast_10pct_run.R并验证它是否产生了预期的结果-这将需要几个小时运行_full_100pct_run.R以生成提交文件。其他文件的摘要：avito_data1.R-加载数据集avito_phone.R-从电话数据集avito_search.R提取特征-从搜索数据集avito_visit.R提取特征-访问数据集avito_cat_cat.R提取特征-更多功能+数据合并avito_data_merge.R-其余功能+数据合并avito_train_xgb.R-适合xgboost模型avito_utils.R-一些实

2022-06-02 16:26:02 89KB R

1

house price.zip

House Prices: Advanced Regression Techniques kaggle项目中房价预测数据集。

2022-05-30 19:20:37 193KB House Prices: Ad kaggle

1

kaggle-competition-Humpback-Whale-Identification-Challenge:kaggle竞赛座头鲸识别挑战赛

本次竞赛要解决的问题是，通过识别图片中的鲸鱼尾巴，实现对鲸鱼种类的分类，属于一个多分类问题提供的数据集包括9850张训练图片（4251个种类）和15610张测试图片。这是本人第一次参加的比赛，最终以0.45426的分数，排名45th/528，top9% 环境说明： tensorflow-gpu:1.4.1 keras-gpu:2.0.5 文件说明： input: notebook文件需要的输入 humpback-whale-identification-model-files: Whale Recognition Model with score 0.78563.ipynb需要的文件 train.csv: 原始训练集标注文件 train_aug.csv: Keras_lb_0.38_to_0.42_cut_aug.py使用的经过裁剪，以及数据增强后的训练集标准文

2022-05-30 16:45:23 21.91MB JupyterNotebook

1

Forbes_College_Analysis：使用：美国顶级大学排名的基本分析（福布斯，2019）https：//www.kaggle.comchris95camforbes-americas-top-colleges-2019？select = ForbesAmericasTopColleges2019.csv

福布斯学院分析使用：美国顶级大学排名的基本分析（福布斯，2019）我将使用由福布斯（Forbes）编译的开源数据集，该数据集分析美国650强大学的排名。该数据集提供了多个数据点的广泛而准确的视图，这些视图清楚地显示了这些大学提供的教育质量。该数据集中提供了位置，排名，使用的补助金，学生/校友人数和学费。我的目标是使用这些排名来深入了解被分析类别的机构（针对每个假设）所提供的总体价值。将保持对公共机构与私人机构的特别关注。将检查数据点之间的多重相关性以做出这些观察。参考值将与学生及其家人作为听众进行研究。学生及其家庭是大学的“客户”，我想提供可供参考的类别的学校可以参考的见识，以吸引这些客户。该数据旨在用于吸引将来的学生使用某一类别机构提供的价值。此数据旨在进行分类，而不是特定于机构。本·史蒂文斯

2022-05-30 15:51:53 176KB JupyterNotebook

1

matlabauc代码-kaggle-melbourne-seizure-prediction-held-out:Kaggle-墨尔本大学AE

Matlab的耳语描述这是用于2016年我的解决办法结束8日将在私人排行榜代码，它是基于对公共排行榜与0.80396 AUC分类决策树和0.79074 AUC私人排行榜。软件 Matlab 2014a 二手工具箱：统计工具箱，信号工具箱，小波工具箱特征在每个频道的整个10分钟文件中计算功能，而不会分成任何较短的纪元。我基本上从示例提交脚本中获取了所有功能，并根据我的直觉和有关此主题的一些文章添加了其他功能。功能包括：平均值，标准偏差，偏度，峰度，光谱边缘，香农熵（用于信号和Dyads），Hjorth参数，几种类型的分形维数使用Morlet波的10尺度小波变换的奇异值 -0.5，+ 0.5秒间隔内通道之间的最大相关性，频域中通道之间的相关性，每个二进位级上通道功率谱之间的相关性每个频道共有73个功能，只使用了功能的实际部分。交叉验证我使用了统计工具箱中的cvpartition ，它可以创建随机分区，其中每个子样本具有相等的大小和大致相同的类比例。我不在乎序列会导致我的本地AUC结果比排行榜高出约0.1。模型为每个通道和患者创建一个分类决策树模型，将患者通道间的

2022-05-30 10:00:53 45.23MB 系统开源

1

个人信息

热门下载

最新下载

其他资源