来自社会媒体数据的实时洞察-数据科学案例研究 这是来自社交媒体数据的实时洞察-简单数据科学案例研究 此数据科学案例研究遵循以下步骤: 本地和全球思维模式 美化输出 寻找共同的趋势 探索热门趋势 深层发掘 频率分析 围绕趋势活动 千言万语的人民 分析使用的语言和各种推文来源 中等文章链接: :
2022-11-21 20:15:25 209KB JupyterNotebook
1
电动汽车目标销售策略研究:内容包括训练集与测试集,数据处理方法,模型使用,模型评价,可视化等方面。处理数据中的异常值、缺失值,使用不同的可视化方法可视化数据中的预测变量、根据不同的品牌汇总数据的变量。可视化图例包括:雷达图、热图、散点图。柱形图、条形图。模型方面包括glmnet模型,SCAD模型,集成模型。可视化方面包括可视化混淆矩阵,ROC曲线等等。 电动车目标销售策略为类失衡建模,针对类失衡建模的处理,可以参考本人博客中对于类失衡问题的解释,算作是对于该项目的一个扩展。 模型方面也可供各位下载者进行扩展:神经网络、C50、svm、随机森林等。
1
Regen_Models 为2020年数据科学案例竞赛创建的模型 RStudio分析 RStudio用于清理和生成类列的列值,这些值再次经过标准化处理以产生更好的调整结果。 Python分析 使用Python对数据集的规范化版本执行模型开发,在其中使用并比较了诸如adaboost,Randomforest,RandomTree等算法。 Python在确定哪些输入和输出提供最大的相关值以及变量的功能重要性方面起着决定性的作用。 使用PCA来显示使用这些模型时可以达到的最大方差进一步证明了这一点。 相关图,特征重要性图,PCA图和混淆矩阵图是使用Python生成的。 WEKA分析 使用常规算法执行以产生最佳值,我们得出的一般算法产生的精度远高于80%。 这里的目的是更好地解释输入和输出之间的关系。 通过WEKA创建的最佳模型文件与缓冲区一起存储在模型文件中,该缓冲区显示了所生成模型的统计信
2021-04-09 09:05:47 1.73MB JupyterNotebook
1