数据记录了美国芝加哥市从2001年至2016年6000000笔犯罪记录,包括时间、地点、区域、案件描述、社区、经纬度坐标等。
2022-06-06 11:19:30 479.48MB 美国社会数据 犯罪统计 Kaggle
1
Kaggle-WhatsCooking-机器学习 来源 目标-使用食谱成分来预测美食类别 语言-Python 套餐-NumPy,Pandas,Sci-Kit Learn 数据文件概述 >>df_train.info() Int64Index: 39774 entries, 0 to 39773 Data columns (total 3 columns): cuisine 39774 non-null object id 39774 non-null int64 ingredients 39774 non-null object dtypes: int64(1), object(2) >>df_train.head()
2022-06-06 03:05:11 3KB Python
1
Nyc-Taxi-Kaggle-挑战 目标 Kaggle竞赛预测纽约出租车的行驶时间。 该项目的报告在capstone.pdf。 (在这个项目中,我提供了许多链接,如果您是初学者,可以通过这些链接来弄清楚您的概念,如果不理解的话,可以通过project和readme中提供的链接和pdf来了解。) 问题陈述 在本报告中,我们使用来自纽约市出租车和高级轿车委员会的数据来考察Kaggle竞赛,该竞赛要求竞争对手预测纽约市出租车旅行的总行驶时间(trip_duration)。 Kaggle提供的数据是作为CSV文件提供的结构化数据。 CSV文件中的数据包括多种格式:时间戳,文本和数字数据。 这是回归分析,因为输出(总行驶时间)是数字。 我将使用几种机器学习方法来完成预测任务,这些方法是线性回归,k最近邻回归,随机森林和XGBoost。 将使用均方根对数误差对模型进行评估。 总览 我使用Jupyter_Notebook在dekstop上执行此项目,并且在使用python的远程服务器上也无需使用Jupyter_notebook来执行。 软件和库 Python 3 Scikit-learn:Pyt
2022-06-05 16:04:07 23.28MB python machine-learning deep-learning random-forest
1
Kaggle TalkingData AdTracking欺诈检测挑战 第48解决方案,竞赛链接: : :笔记本电脑版本 :脚本版本,在私有LB上大约为0.9824 blending.ipynb:混合历史模型,这使我提高了约0.0002 FTRL.ipynb:由于时间有限,没有尝试过 在完整的训练数据上运行此代码需要96GB RAM和128G交换空间 一些解决方案作为参考 火车日志 请参阅
2022-06-03 04:40:17 23KB JupyterNotebook
1
talkingdata-adtracking欺诈检测 Kaggle比赛(前8%) 数据集的前景 我们的目标是预测用户点击广告后是否会下载该APP。 用户可能欺诈性地点击广告只是为了赚钱。 特征: IP:用户所在的地区或国家与他或她是否欺诈性地点击广告有关。 (一个)。 欺诈用户可以使用同一IP多次单击同一AD。 (b)。 但是,同一公司中的家庭或人可以共享同一IP,这意味着同一IP可以包含常规用户和欺诈用户。 按设备,操作系统,渠道等分组可以进一步区分。 APP :(可以按IP使用分组)用于营销的应用ID 设备:用户手机的设备类型ID(例如,iphone 6 plus,iphone 7,华为mate 7等) 操作系统:(可以按IP分组使用)用户手机的操作系统版本ID 频道:移动广告发布者的频道ID click_time: (一个)。 普通用户和欺诈用户在单击AD时会有
2022-06-03 04:31:20 68KB JupyterNotebook
1
kaggle-avito Avito CTR竞赛的获奖解决方案 可以在.pdf文件中找到该解决方案的一些高级说明。 如何运行: 将_fast_10pct_run.R和_full_100pct_run.R顶部的文件夹更改为指向存储数据文件的位置 (推荐)运行_fast_10pct_run.R并验证它是否产生了预期的结果-这将需要几个小时 运行_full_100pct_run.R以生成提交文件。 其他文件的摘要:avito_data1.R-加载数据集avito_phone.R-从电话数据集avito_search.R提取特征-从搜索数据集avito_visit.R提取特征-访问数据集avito_cat_cat.R提取特征-更多功能+数据合并avito_data_merge.R-其余功能+数据合并avito_train_xgb.R-适合xgboost模型avito_utils.R-一些实
2022-06-02 16:26:02 89KB R
1
House Prices: Advanced Regression Techniques kaggle项目中房价预测数据集。
2022-05-30 19:20:37 193KB House Prices: Ad kaggle
1
本次竞赛要解决的问题是,通过识别图片中的鲸鱼尾巴,实现对鲸鱼种类的分类,属于一个多分类问题 提供的数据集包括9850张训练图片(4251个种类)和15610张测试图片。 这是本人第一次参加的比赛,最终以0.45426的分数,排名45th/528,top9% 环境说明: tensorflow-gpu:1.4.1 keras-gpu:2.0.5 文件说明: input: notebook文件需要的输入 humpback-whale-identification-model-files: Whale Recognition Model with score 0.78563.ipynb需要的文件 train.csv: 原始训练集标注文件 train_aug.csv: Keras_lb_0.38_to_0.42_cut_aug.py使用的经过裁剪,以及数据增强后的训练集标准文
2022-05-30 16:45:23 21.91MB JupyterNotebook
1
福布斯学院分析 使用:美国顶级大学排名的基本分析(福布斯,2019) 我将使用由福布斯(Forbes)编译的开源数据集,该数据集分析美国650强大学的排名。 该数据集提供了多个数据点的广泛而准确的视图,这些视图清楚地显示了这些大学提供的教育质量。 该数据集中提供了位置,排名,使用的补助金,学生/校友人数和学费。 我的目标是使用这些排名来深入了解被分析类别的机​​构(针对每个假设)所提供的总体价值。 将保持对公共机构与私人机构的特别关注。 将检查数据点之间的多重相关性以做出这些观察。 参考值将与学生及其家人作为听众进行研究。 学生及其家庭是大学的“客户”,我想提供可供参考的类别的学校可以参考的见识,以吸引这些客户。 该数据旨在用于吸引将来的学生使用某一类别机构提供的价值。 此数据旨在进行分类,而不是特定于机构。 本·史蒂文斯
2022-05-30 15:51:53 176KB JupyterNotebook
1
Matlab的耳语描述 这是用于2016年我的解决办法结束8日将在私人排行榜代码,它是基于对公共排行榜与0.80396 AUC分类决策树和0.79074 AUC私人排行榜。 软件 Matlab 2014a 二手工具箱:统计工具箱,信号工具箱,小波工具箱 特征 在每个频道的整个10分钟文件中计算功能,而不会分成任何较短的纪元。 我基本上从示例提交脚本中获取了所有功能,并根据我的直觉和有关此主题的一些文章添加了其他功能。 功能包括: 平均值,标准偏差,偏度,峰度,光谱边缘,香农熵(用于信号和Dyads),Hjorth参数,几种类型的分形维数 使用Morlet波的10尺度小波变换的奇异值 -0.5,+ 0.5秒间隔内通道之间的最大相关性,频域中通道之间的相关性,每个二进位级上通道功率谱之间的相关性 每个频道共有73个功能,只使用了功能的实际部分。 交叉验证 我使用了统计工具箱中的cvpartition ,它可以创建随机分区,其中每个子样本具有相等的大小和大致相同的类比例。 我不在乎序列会导致我的本地AUC结果比排行榜高出约0.1。 模型 为每个通道和患者创建一个分类决策树模型,将患者通道间的
2022-05-30 10:00:53 45.23MB 系统开源
1