时间序列建模 时间序列预测是使用模型根据先前观察到的值预测未来值。 虽然回归分析通常以测试关系的方式使用。 时间序列数据的模型可以具有多种形式,并代表不同的随机过程。 在对流程级别的变化进行建模时,三类具有实际重要性的类别是自回归(AR)模型,集成(I)模型和移动平均(MA)模型。 这三个类别线性地取决于先前的数据点。[28] 这些思想的结合产生了自回归移动平均(ARMA)和自回归综合移动平均(ARIMA)模型 资料来源:Wikipedia
2022-04-08 17:33:53 2MB JupyterNotebook
1
NER_CRF_Model:使用条件随机字段的命名实体识别
2022-04-08 10:40:44 3KB JupyterNotebook
1
绿色西雅图-可视化(团队成员:莎拉·克里斯蒂娜(Sarah Pristash),崔雯琪(Cenqi Cui)和肖恩·加拉格尔(Shaun Gallagher)) 该项目的目标是西雅图市的交通可视化。 有大量可公开获得的数据,包括有关年均每日流量(AADT)的信息和特定的GeoBaseID,该ID在地理空间坐标中表示这些流量计数的位置。 这些数据由市政府和州政府每年提供。 此数据集可用于更好地了解流量趋势。 特别是,西雅图绿化团队希望在街道和人口普查跟踪级别上,以不同的粒度级别生动显示交通趋势。 数据已在Greening Seattle Shared Repository中收集并清理。 该存储库在geoPandas数据框中获取这些数据,并使用Follium可视化它们。 西雅图交通数据的可视化旨在最终检查人口增长对年度交通的影响,并检查诸如自行车道,停车位或自行车架的建造等城市规划策略如何影
2022-04-08 09:08:56 15.49MB JupyterNotebook
1
Kaggle-有毒评论分类挑战 第33名解决方案 私人LB:0.9872,33 / 4551 公众LB:0.9876、45 / 4551 这是《和代码,我在4,551个团队中排名第33。 有关我的方法的更多信息,请参见我的。 我们的任务是处理多标签分类问题; 特别是,任务是将在线评论分为6类: toxic , severve_toxic , obscene , threat , insult , identity_hate 。 竞争指标是每个预测类别的单个AUC的平均值。 方法摘要: 嵌入物: 在比赛数据上本地训练的fastText嵌入 预训练嵌入(具有相似性插补): 型号(显示最佳私人成绩): CapsuleNet( 0.9860私有,0.9859公开) RNN版本1( 0.9858私有,0.9863公开) RNN版本2(0.9856私有,0.9861公开) 两层CN
2022-04-07 13:10:18 73KB JupyterNotebook
1
流分位数 该代码实现了Zohar Karnin,Kevin Lang和本人(Edo Liberty)在论文《中的描述的最简单算法。 它是免费分发的,没有任何形式的保证。 不应将其视为已准备好用于生产。 它被写为一种学术工具,供论文读者重现我们的结果。 它没有以任何方式进行优化。 用法 kll.py中的主类 $ python kll.py -h usage: kll.py [-h] [-k K] [-t {string,int,float}] optional arguments: -h, --help show this help message and exit -k K controls the number of elements in the sketch which is
2022-04-06 14:17:57 77KB JupyterNotebook
1
资料集 用于训练和验证模型的Twitter数据集是密歇根大学Kaggle竞赛数据集和Neik Sanders创建的“ Twitter情感语料库”的组合。 这些数据集总共包含1,578,627条标记为正或负的推文。 您可以获取数据集! 我们还在嵌入层中使用了GloVe(单词表示的全球向量)进行了预训练。(您可以下载Twitter的Glove ^^ 火车 我们通过多种方式处理数据,例如: URL被标记替换。 连续重复两次以上的任何字母都将被该字母的2次重复替换(例如,“ sooooo”被替换为“ soo”) 使用dicos数据集修复错误的单词 几个表情符号被代币替换 所有推文均小写。 我们结合使用LSTM和CNN 结果 我们得到的准确性因素到83,7%,在这种高8.5%, 用相同的数据集。 注意:该项目中的所有文件都在运行
2022-04-06 13:40:53 984KB JupyterNotebook
1
Zillow数据抓取 Zillow网站上的数据收集以进行房价分析
2022-04-06 10:33:19 1.56MB JupyterNotebook
1
LSTM用于人类活动识别 使用智能手机传感器数据集(腰部连接的手机)基于LSTM的人类活动识别。 将运动类型分为以下六类: 步行, WALKING_UPSTAIRS, WALKING_DOWNSTAIRS, 坐下 常设, 铺设。 数据集 可以从下载数据集 点击此以观看有关如何收集数据的视频 通过应用噪声滤波器对传感器信号(加速度计和陀螺仪)进行预处理,然后在2.56秒和50%重叠(128个读数/窗口)的固定宽度滑动窗口中进行采样。 使用巴特沃斯低通滤波器将具有重力和人体运动成分的传感器加速度信号分离为人体加速度和重力。 假定重力仅具有低频分量,因此使用了具有0.3 Hz截止频率的滤波器。 模型 在此仓库中,我们采用了两层堆叠的基本LSTM,几乎使用了原始数据:只有重力效应已从加速度计中滤出,作为另一个3D功能的预处理步骤,以作为帮助学习的输入。 用法 安装TensorFlow r
2022-04-06 10:32:15 113.18MB JupyterNotebook
1
合成人类生成的姿势数据增强 该知识库是的硕士论文的一部分,是在开发的。 给定的管道可以使用通过任何深度相机扫描的点云(推荐:Intel RealSense D435i),并根据点云的颜色信息的可用性实现迭代最近点(ICP)的两种不同变体。 整个过程如下图所示。 接触: 表中的内容 输出 后期处理 引文 执照 致谢 接触 参考 资料收集程序 出于本项目的目的,请从深度相机收集点云或扫描数据。 主要算法接受.pcd或.ply格式的点云,并且可以接受2到5000之间的任意数量的点云。点云(扫描)的数量取决于最终注册的点云分辨率的要求。 硬件 在创建管道的实验中,我们使用了Intel RealSense D435i ,它是Intel的深度感测相机。 英特尔实感:trade_mark:D4xx深度摄像头可以每秒高达90帧的速度传输实时深度(即测距数据)和色彩数据,生成深度数据的所有处理均由嵌入式D4专用集成电路在板
2022-04-06 10:30:42 2.07MB JupyterNotebook
1
客户细分 有关客户细分的案例研究项目。 客户细分是根据共同特征将客户分为几组的过程,以便公司可以有效,适当地向每个组进行营销。 在这个项目中,我们使用在线食品交付平台上的数据。 我们的目标是创建客户细分以回答业务问题。 我们计划使用两种模型: 更传统的统计模型 一种称为K-均值聚类的机器学习算法 所有代码都在Jupyter Notebook(Python 3.x)中编写 使用Tableau Link->
2022-04-05 20:10:06 517KB JupyterNotebook
1