来自社会媒体数据的实时洞察-数据科学案例研究 这是来自社交媒体数据的实时洞察-简单数据科学案例研究 此数据科学案例研究遵循以下步骤: 本地和全球思维模式 美化输出 寻找共同的趋势 探索热门趋势 深层发掘 频率分析 围绕趋势活动 千言万语的人民 分析使用的语言和各种推文来源 中等文章链接: :
2022-11-21 20:15:25 209KB JupyterNotebook
1
Python数据科学:Python数据科学拥有位于http://youtube.comtheengineeringworld上的YouTube课程的所有数据集和jupyter笔记本文件,名称为“ Python数据科学课程”。
2022-11-17 10:37:57 1.83MB python data-science data machine-learning
1
SimLab 2.2是为基于蒙特卡洛的不确定性和灵敏度分析而设计的软件。 Monte Carlo (MC)方法在这里用于伪随机数的生成,重点是来自联合概率分布的点的采样集;经常使用“样本分布”的名称。 基于mc的不确定性和敏感性分析是基于使用概率选择的模型输入执行多个模型评估,然后使用这些评估的结果来确定1)模型预测中的不确定性和2)导致这种不确定性的输入变量。一般来说,一个分析包括五个步骤。Monte Carlo 在第一步中,为每个输入变量(输入因子)选择范围和分布。这些选择将在下一步从输入因子生成样本时使用。如果分析主要是探索性的,那么相当粗略的分布假设可能就足够了。 在第二步中,根据第一步中指定的输入的分布生成点的样本。这一步的结果是一个样本元素序列。 在第三步中,向模型输入样本元素,产生一组模型输出。本质上,这些模型评估创建了一个从输入空间到结果空间的映射。这个映射是后续不确定性和敏感性分析的基础。 第四步,将模型评价的结果作为不确定度分析的基础。描述不确定性的一种方法是用一个平均值和一个方差。还提供了其他模型输出统计数据。 第五步,将模型评价的结果作为敏感性分析的基础。
1
关于 矩阵分析&数值分析&数据科学与工程 几门课的复习资料。
Python 数据科学速查表 14 张(呆鸟译)
2022-10-16 11:40:29 4MB  数据科学 Python 速查表
1
前面介绍的这些向量化字符串操作方法非常适合用来处理现实中那些凌乱的数据。下面将通过一个从不同网站获取的公开食谱数据库的案例来进行演示。我们的目标是将这些食谱数据解析为食材列表,这样就可以根据现有的食材快速找到食谱。 获取数据:https://github.com/fictivekin/openrecipes 由于书中提供的下载链接已失效,经过本人多方找寻,附上由作者之一最新提供的食谱数据文件。 数据下载(浏览器打开,右键另存为):https://s3.amazonaws.com/openrecipes/20170107-061401-recipeitems.json.gz
2022-08-21 17:01:46 135.13MB python 数据库 开发语言 database
1
电动汽车目标销售策略研究:内容包括训练集与测试集,数据处理方法,模型使用,模型评价,可视化等方面。处理数据中的异常值、缺失值,使用不同的可视化方法可视化数据中的预测变量、根据不同的品牌汇总数据的变量。可视化图例包括:雷达图、热图、散点图。柱形图、条形图。模型方面包括glmnet模型,SCAD模型,集成模型。可视化方面包括可视化混淆矩阵,ROC曲线等等。 电动车目标销售策略为类失衡建模,针对类失衡建模的处理,可以参考本人博客中对于类失衡问题的解释,算作是对于该项目的一个扩展。 模型方面也可供各位下载者进行扩展:神经网络、C50、svm、随机森林等。
1
Will_they_claim_it 保险公司对客户承担风险。 风险管理是保险业非常重要的方面。 保险公司考虑每个可量化因素来制定高和低保险风险的概况。 保险公司收集有关保单持有人的大量信息并分析数据。 作为保险公司的数据科学家,我们需要分析可用数据并预测是否批准保险。 数据集说明 训练数据集包含对应于52310个客户的数据,而测试数据集包含22421个客户。 以下是数据集的功能。 目标:索赔状态(索赔) 代理商名称(代理商) 旅行保险公司类型(Agency.Type) 旅游保险代理经销渠道(Distribution.Channel) 旅游保险产品名称(Product.Name) 旅行时间(持续时间) 旅行目的地(目的地) 旅游保险保单销售额(净销售额) 为旅行保险代理机构收取的佣金(委员会) 被保险人年龄(年龄) 每个观察的识别记录(ID) 资料说明
2022-07-22 09:11:10 1.15MB JupyterNotebook
1