平台下载的原始三个数据train.csv test.csv gender_submission.csv (本来想0积分 分享给大家 无奈最低是1分了)
2022-02-13 20:19:37 32KB titanic数据
1
从69位患者的475个系列中提取出的医疗CT切片影像,以及相对应的患者年龄、形态和比对标签信息。
2022-02-12 21:22:33 357.8MB Kaggle 智慧医疗 CT影像
1
此代码从我们的团队“carl and snow”生成了 Tradeshift 文本分类的第一名解决方案 它主要包括两种模型: 使用 Xgboost 和 sklearn 的两阶段模型。 在线逻辑回归。 依赖关系 Python 2.7 pypy 2.4.0 Scikit learn-0.15.2 numpy 1.7.1 scipy 0.11.0 Xgboost 0.3 要生成解决方案: 设置所有依赖 更改 run.py 中的数据目录 更改 ./src/xgb_classifier.py 中的 xgboost 包装器路径 Python运行.py 最佳单解:xgb-part1-d18-e0.09-min6-tree120-xgb_base.csv private LB 0.0044595 最佳集成解决方案:best-solution.csv 私有 LB 0.0043324(第一名)
2022-02-12 21:17:09 508KB Python
1
Kaggle竞赛-Zillow的房屋价值预测(估算) Zillow是致力于为消费者提供数据支持的领先房地产和租赁市场,它们为拥有和居住房屋的整个生命周期提供服务:购买,出售,租赁,融资,改建等。 Zillow估算其房屋的价值,并将其称为“ Zestimate”。 从Zillow出发: ““ Zestimates”是根据750万个统计和机器学习模型估算的房屋价值,该模型分析了每个属性上的数百个数据点。” Zillow在2017年5月24日发起了Kaggle竞赛,以改善其Zestimate模型。 这是我对他们的竞争的看法。 问题 一间房子真的值多少钱? 对于试图购买第一套房子的普通人来说,回答这个问题可能是一项艰巨的任务。 无论人们愿意花多少钱,房子都值得,它取决于市场,房子的质量,位置等。 不幸的是,这还取决于您要问的人,是要问贷方,代理商还是县税务评估员。 换句话说,知道
2022-02-12 02:19:16 341KB JupyterNotebook
1
Wheat_detection 这是我的存储库,其中包含的基准模型 使用的主要框架: 要将其用于培训,请执行以下步骤: 下载数据,解压缩并放入某个文件夹中; 在config conf / data / data.yaml中将该文件夹定义为键data.folder_path的值 运行run_hydra.py脚本 没有用于预测的脚本,因为在这种竞争中,我们必须在内核中进行预测。 请参阅我的内核以获取更多信息: :
2022-02-10 18:46:49 35KB deep-learning pytorch hydra kaggle-competition
1
基于kaggle平台上--电信客户流失数据集,利用生存分析进行流失预测 https://www.kaggle.com/blastchar/telco-customer-churn 0 customerID 客户编号 1 gender 性别 2 SeniorCitizen 是否是老年人 3 Partner 是否单身 4 Dependents 经济是否独立 5 tenure 已使用月份数 6 PhoneService 电话业务 7 MultipleLines 多线业务 8 InternetService 网络服务业务 9 OnlineSecurity 网络安全业务 10 OnlineBackup 网络备份业务 11 DeviceProtection 设备保护业务 12 TechSupport 技术支持业务 13 StreamingTV 网络电视业务 14 StreamingMovies 网络电影业务 15 Contract 合同方式 16 PaperlessBilling 电子账单 17 PaymentMethod 支付方式 18 MonthlyCharges 月费用 19 Total
2022-01-28 09:06:23 186KB kaggle
Home Credit 违约风险 - Kaggle 竞赛 https://www.kaggle.com/c/home-credit-default-risk/code 背景 在Kaggle Home Credit 违约风险竞赛中,参与者试图从应用程序、人口统计和历史信用行为数据中预测客户未来的支付行为。由于我在金融方面的学术背景,我想尝试一下信用风险数据集,这似乎是一个有趣的挑战。 0.8 的 ROC AUC 足以跻身本次比赛的获胜者之列,所以这就是我的目标。我想在这个数据集上尝试一些新方法,例如使用自动编码器进行特征缩减。 当前状态 主数据集包含 120 个特征和一个二进制目标变量。使用补充数据集,我能够将独立特征数增加到 1400 多个。我进行手动特征选择以将维度降低到 290 个最重要的特征。我目前正在使用自动编码器来替代手动特征选择。 使用 LightGBM,我能够获得超过 0.78 的 ROC AUC。现在我将不得不进行超参数调整以改进这个结果。
2022-01-28 09:06:23 732KB Kaggle
kaggle比赛criiteo经典CTR预估数据集(小型)
2022-01-26 19:07:30 631KB 计算广告 推荐系统
1
pdf文档,从网上直接下载的,共享出来。如果没有积分,可以直接私信我:-)
2022-01-26 10:30:34 39.19MB python 机器学习
1