Automobile-sale-predict 主要代码在sale_quantity_feature.ipynb中 最终结果将往前月份的销量作为特征,进行预测
2021-06-29 14:43:25 1.55MB JupyterNotebook
1
阿里大规模图像搜索大赛 阿里移动推荐算法 新浪微博互动预测大赛 代码
2021-06-26 19:42:02 1.32MB 阿里天池算法
1
subway_traffic_forecast-tianchi 萌新开源,大佬些多给点指导。 天池全球城市计算AI挑战赛-地铁人流量预测, A榜22/2319,该代码是A榜代码,如果能有所收获,老铁右上角,star一下,感谢! 队友:buger,taoberica、selina雪,感谢鱼佬baseline, A榜代码有部分是借鉴鱼佬开源代码, 没能进入决赛也就不开源淘汰赛的代码了。 数据集下载: 链接: 提取码: arse 比赛链接; 目前还有一些未来得及验证的想法,有兴趣的大佬些可以试试看。 a.将间隔十分钟改为间隔五分钟,相对增加了数据量 b.将shfit后的前三天删掉,因为shift后前三天引入了很多0 c.除了shift最近三天的策略,还可以试试shift最近两天+上一周相对应的week的数据 d.最开始也试了lgb模型,效果比xgb差点,可以将xgb和lgb采用blending
2021-06-26 16:15:41 6KB 附件源码 文章源码
1
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
2021-06-25 19:33:07 6.44MB 数据分析 天池大数据
1
SZViews:天池数智教育数据可视化大赛原始码
2021-06-24 22:11:33 13.85MB 系统开源
1
“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战 决赛 第一名方案 wodejiafeiyu|nano- nano- 康一帅 简介 环境 Tensorflow == 1.14.0 Keras == 2.3.1 bert4keras == 0.8.8 文件说明 EDA:用于探索性数据分析。 code/train.py:用于模型的训练。 code/infer.py:用于模型的推断(预测)。 code/utils.py:工具函数。 data:数据目录。 赛题背景分析及理解 赛题是中医药领域的问题生成挑战,而问题生成属于NLG中重要的一种应用。 问题生成任务需要我们根据篇章及对应的答案自动生成相应的问题,即“篇章+答案→问题”这样的流程。 训练集由三个字段(篇章、问题、答案)构成,测试集由两个字段(篇章、答案)构成,其中的问题字段需要我们生成。 根据以上分析,我们可以采用Seq2Seq
2021-06-24 20:03:44 10.89MB JupyterNotebook
1
1.译文选择: 阿里云天池长期赛-测测你的一见钟情指数 原链接 2.开发环境: Python== 3.7.1 numpy == 1.19.1 熊猫== 1.1.0 matplotlib == 3.3.0 seaborn == 0.11.0 scikit_learn == 0.23.2 graphviz == 0.16 3.运行方法: 3.1逻辑回归: 代码在src / LogisticRegression文件夹下,在这里可以运行代码。 安装依赖: pip install - r requirements . txt 运行特征选择(热力图): python data_process . py 运行grid_search: python test . py 3.2决策树: 在控制台中转到src/DecisionTree目录下,执行pythonmain.py。会输出C4.5方
2021-06-23 23:33:42 2.1MB Python
1
1. 项目背景 基于项目提供的汽车相关数据,通过聚类分析的方法实现汽车产品聚类,以构建汽车产品画像、分析产品定位、完成汽车竞品分析等要求。 2. 项目数据 项目提供的汽车数据包括26个字段共205条数据,数据文件为“car_price.csv” 26个字段可以划分为类别型变量和数值型变量两种,包括汽车的长/宽/高、汽车净重、燃油系统、燃油类型、驱动类型、峰值转速、里程数、汽车价格等。 3. 项目要求 通过聚类的方法构建汽车产品画像、分析不同类别汽车的产品定位,寻找Volkswagen大众汽车的竞品品牌。 4. 项目思路 第一步:数据字段理解 根据项目所提供的数据,对数据中26个字段进行理解。结合汽车行业的相关知识,26个字段可以大致归为两类:第一类是车辆自身属性(如燃油系统、燃油类型、汽缸数、峰值转速、汽车长宽高等);第二类是车辆的市场属性(如车辆名称、车辆价格、风险评估等级)。 26个字段主要分为数值型变量和类别型变量两类。 第二步:原始数据描述性统计及变量分布可视化 对原始数据进行描述性统计并对数据中的字段分布进行可视化(详情见主文档)。通过对原始数据的观察,数据不存在缺失值、不存在重复值,“CarName”字段存在部分车辆品牌名称错误的情况。 第三步:确定聚类方法,明确聚类要求 通过对原始数据的变量观察,该数据变量主要为数值型变量和类别型变量两类,且类别型变量数量较多,常用的K-means聚类只能分析数值型变量,无法考虑类别型变量所包含的信息。二阶段聚类法适用于包含数值型和类别型变量的混合数据,因此考虑使用二阶段聚类法分析数据。 二阶段聚类法的要求是:类别型变量符合多项式分布(即变量的值分属几个类别);数值型变量间要相互独立,且数值型变量近似服从正态分布。项目所给出的数据中,类别型变量符合多项式分布,因此仅需进一步观察并处理数值型变量。 第四步:特征工程 数据清洗与新变量生成。原始数据指给出了车辆的名称,没有给出车辆所属品牌,结合最终聚类分析的需要,根据“CarName”字段提取出车辆所属品牌信息,命名为“brand”。同时对品牌名称中的错误拼写进行清洗。 变量相关性分析与可视化。由于二阶段聚类要求数值型变量间相互独立,所以需要对数值型变量间的相关性进行查看与处理。相关性分析结果表示14个数值型变量之间存在高相关性情况,需要结合汽车知识背景与变量特征进行进一步处理。 高相关变量的处理——“highwaympg”和“citympg”呈高度正相关。其实不管是高速mpg还是城市mpg,其本质都是mpg指标,而且通过观察数据,二者之间的差异较小(极值、均值),因此考虑将二者合并为一个指标'mpg',计算方式为取二者均值:mpg=(highwaympg+citympg)/2; 高相关性变量的处理——“price”变量与其余变量产生高相关性的频数最多,可能是因为车辆自身属性和配置的变动会直接影响着车辆的市场价格。此外,与其他变量相比,price属性属于车辆的市场销售属性(而非车辆自身属性),在聚类中更适合作为类别型变量,对车辆的价位进行划分,因此,考虑将price变量转换为类别型变量,按照其价格分布划分为Low price(20000)三类; 高相关性变量的处理——对于其余数值型变量,变量数目较多且多个变量之间存在相关性,因此考虑使用因子分析对数值型变量进行降维,以减少数值型变量的数目并使变量间相互独立。 第五步:数值型变量因子分析结果(基于SPSS实现) 利用SPSS对数值型变量进行因子分析,KMO值>0.8,巴特利球形检验p值=0,说明参与因子分析的变量间存在相关性,可以进行因子分析。最终得到两个因子。 第一个因子包括:车长、车宽、车净重、引擎尺寸、车轴距、mpg、马力、车内径比。简单将该因子归纳为车辆截面与马力因子; 第二个因子包括:车高、峰值转速、车压缩比。简单将该因子归纳为车辆垂面与转速因子; 第六步:两阶段聚类及结果(基于SPSS实现) 对处理后的数据进行两阶段聚类,最终将205辆车聚为两类。 根据SPSS聚类结果,第一类中包含120条车辆数据,占总数据的58.5%;第二类中包含85条车辆数据,占总数据的41.5%。两类簇数据规模近似,没有过大或过小的类簇。 根据SPSS聚类结果,聚类质量属于“良好”范围,仍有进一步改进和优化的空间。 根据SPSS聚类结果,显著区分两类类簇的变量(重要性>0.6)按重要性大小排序依次是驱动类型、燃油系统、车辆截面与马力因子、价格范围。 汽车产品画像与产品定位 根据区分类簇的四个重要标签来对数据中的汽车产品进行产品画像与产品定位。 第一类画像:驱动类型多为fwd(前轮驱动),燃油系统多
2021-06-23 19:07:32 387KB 聚类分析 数据分析 spss
包含:常用机器学习算法,剑指offer,微软面试100题, 机器学习、深度学习算法,kaggle、天池等项目实战。海量数据中位数,正则化等内容。
2021-06-23 16:20:34 16.62MB 面试
1
阿里天池安全Ai挑战者计划图像篡改检测 博主此次比赛rank23 这是在在学校做宣讲时的材料 包括深度学习入门指导,比赛所需知识获取方式,常见比赛类型解读以及此次比赛的TOP选手方案解读
2021-06-22 18:06:00 8.5MB 深度学习
1