使用NLP对股票市场的推文的影响 NLP对推文的情绪分析,并平均每天的情绪。 与股价变化比较。
2022-09-11 02:04:06 3.61MB JupyterNotebook
1
罗斯曼销售预测 注意:我主要使用PLOTLY在此笔记本中可视化我的数据,但可打印的图未显示在github上。 Kaggle竞赛:Rossmann在欧洲7个国家/地区拥有3,000多家药店。 目前,Rossmann商店经理的任务是提前六周预测其每日销售额。 商店的销售受到许多因素的影响,包括促销,竞争,学校和州假日,季节性和地区性。 成千上万的个人经理根据他们的独特情况预测销售额,结果的准确性可能会大相径庭。 我们接受Rossmann的挑战,即要预测整个德国1,115家商店的6周日销售量。 可靠的销售预测使商店经理能够创建有效的员工时间表,从而提高生产力和动力。 通过帮助Rossmann创建可靠的预测模型,我们将帮助商店经理专注于对他们而言最重要的事情:他们的顾客和他们的团队! 目录 进口包 资料准备 2.1加载数据集 2.2处理缺失的值 2.2.1计算每个数据集中的缺失值 2.2.2删
2022-09-07 12:51:37 1.27MB JupyterNotebook
1
ADS-B飞行本地化 该项目将指导您从数据检查和预处理开始,一直到根据众包的空中交通管制通信数据为飞机本地化设计端到端应用程序。 该数据集是由OpenSky Network和Cyber​​-Defence Campus-armasuisse Science and Technology推动的飞机本地化竞赛的一部分。 它包含由大型传感器网络收集的ADS-B传输,并带来以下挑战: 卷-对内存中不适合的数据执行数据预处理和ML模型训练, 速度-实时数据预处理,预测和可视化, 准确性-接收器不同步,传感器的定位不正确, 价值-执行数据预处理和预测分析以获取见解-预测飞机当前坐标和高度, 品种-从嵌套在表内的JSON数组中提取数据。 为了确保我们的应用程序满足可伸缩性和性能要求,我们将必须使用适当的技术。 以下是将要使用的工具: 使用Apache Spark和Modin进行分布式数据预
2022-09-06 19:34:21 73.84MB JupyterNotebook
1
data_projects 该存储库中的文件夹包含来自dataquest.io和kaggle.com项目的分析数据,这些数据是旨在解决实际问题的真实数据集。 使用Jupyter笔记本对数据进行了分析,文件为csv格式。 数据清理,处理,可视化和分析是这些项目中使用的技术。
2022-09-05 11:06:17 41.63MB JupyterNotebook
1
ViT-Tinkoff任务 要求: imagenet21k_ViT-B_16.npz imagenet21k_R50 + ViT-B_16.npz 可以从这里下载: : 链接:
2022-09-05 00:08:50 73KB JupyterNotebook
1
BestiaPop:一个python软件包,用于自动化气候数据的提取和处理以进行作物建模 气候数据是使用特定地点(点)或网格化气候数据预测作物生长和发育的作物模型的重要输入。 但是, Crop Models期望输入数据以自定义文件格式( MET , WTH等)封装,这些格式不符合通用标准,需要各种自定义,具体取决于生成作物模型的预测引擎。 此外,像或这样的源数据提供者通常在它们作为API服务的一部分提供的数据输出文件的类型中保持中立,这导致源原始数据与作物建模套件开发其模型所需的已处理数据之间存在差距。 我们开发了BestiaPop (一个西班牙语单词,翻译为pop beast ),这是一个Python软件包,允许模型用户自动下载SILO(土地所有者的科学信息)或NASAPOWER网格化的气候数据,并将此数据转换为作物模型可以提取的文件如APSIM或DSSAT。 该软件包提供了选择一定
2022-09-04 16:30:08 8.2MB JupyterNotebook
1
美国国王县房屋销售 该数据集包含包括西雅图在内的金县的房屋售价。 其中包括2014年5月至2015年5月之间出售的房屋。 我将在本项目中讨论这些模块以分析数据 ...模块1:导入数据集 模块2:数据整理 模块3:探索性数据分析 模块4:模型开发 单元5:模型评估和完善 在数据分析生命周期的最后阶段。 在此阶段,必须尝试提高数据模型的效率,以便可以做出更准确的预测。 最终目标是将模型部署到生产或类似生产的环境中以最终接受 。
2022-09-03 21:32:51 1.2MB JupyterNotebook
1
通过概率经验回报分布估计和混合整数线性规划的均值-VaR投资组合优化 在此存储库中的Jupyter笔记本(.ipynb)中,我们提供了一种流行的现代投资组合理论(MPT)方法的替代方法,以优化资产分配。 与MPT相反,在MPT中,财务风险是通过预测收益的波动性(即标准误)来建模的,我们选择通过预测收益的经验性联合分布并制定优化问题以选择资产的目的,来更明确地表征此风险。分配以最大化该分布的均值,并限制资产选择的选择,以确保不会违反根据此经验分布测得的某些风险值(VaR)。 这种方法的主要原因是要解决MPT的主要缺点之一,即不一定捕获回报分配中可能很重的尾巴的行为,从而低估了资产的实际风险。 总体方法可以总结如下: 我们基于历史资产收益建立时间序列模型,以使模型的残差独立且均匀地分布(iid)。 我们使用模型和残差来生成自举预测,即使用时间序列模型预测下一个返回值,并从iid残差中随机采
2022-09-03 01:14:48 16.21MB JupyterNotebook
1
COMP504-Grad-OOP和设计
2022-09-01 12:06:45 36.75MB JupyterNotebook
1
数据挖掘项目 推文聚类 目标: 主Twitter API用于提取推文 掌握自然语言处理 数据清理 推文分类 要求: Twitter开发人员帐户 Twitter API 1-数据提取: 导入库(tweepy +熊猫+ numpy) 连接到Twitter API 将推文提取到多个csv文件中,然后将它们组合到一个csv文件中 2-处理前的推文: 使用re库搜索不必要的信息。 删除标点符号,主题标签,个人资料名称,URL和表情符号。 创建一个新的干净的CSV文件 3-处理推文:自然语言处理 导入nltk(自然语言工具包),它由最常用的算法组成,例如标记化,词性标记,词干,情感分析,主题细分和命名实体识别。 NLTK帮助计算机分析,预处理和理解书面文本。 使用“停用词”摆脱英语单词,这些单词不会给句子增加太多含义。 在不牺牲含义的前提下,可以安全地忽略它们。 使用“ Porte
2022-08-31 21:34:30 1.86MB JupyterNotebook
1