数据载体 DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0许可提供您的贡献。 为什么要使用DataVec? 数据处理有时会很混乱,我们认为它应该与高性能代数库(例如nd4j或Deeplearning4j)区分开。 DataVec使从业人员可以获取原始数据并快速生成符合开放标准的矢量化数据(svmLight等)。 开箱即用支持的当前输入数据类型: CSV数据 原始文本数据(推文,文本文档等) 图片资料 支持库 SVMLight MatLab(MAT)格式 JSON,XML,YAML,XML Datavec从许多Hadoop生态系统工具中汲取了灵感,尤其是通过Hadoop API访问磁盘上的数据(就像S
2022-12-17 18:04:45 24.28MB machine-learning formatter schema spark
1
网络管道:网络流量数据管道,用于实时预测和构建深度神经网络的数据集
2021-12-14 14:08:07 314KB redis flask machine-learning django
1
新浪微博互动预测 介绍 比赛的详细信息可以在找到竞争主要是分析用户在中国微博平台上发布的行为和消息,并预测每条消息的转发,评论和喜欢的次数。 该项目主要使用python和pandas。 这项比赛的第二阶段仍在进行中。 这是我为第1阶段构建的数据基准线。 设计 这是一个自行设计的数据基准线。 主要思想是模块化数据项目的流程。 用户编写方法来生成功能,其存储数据帧中大熊猫在功能的文件夹,并feature.log会自动记录所有现有的功能和它们的参数。 用户可以在Train方法中组合不同的功能并选择不同的模型,模型将存储在models文件夹中,模型的信息将存储在train.log中。 用户选择不同的功能和参数组合进行测试,结果将存储在结果文件夹中,而测试信息将存储在test.log中 笔记本文件夹中的Ipython笔记本用于播放数据,迭代地查看日志。 该代码位于weiboPredict
2021-12-11 21:15:37 31.29MB Python
1
利用pb写的一个小demo,本来是想同步数据用的。虽然后面没有使用它。但还是分享给大家好了!demo很简单的,就是教大家怎么使用pipeline来同步数据!免费给大家,希望好评。当然了数据库我就不提供了。你们随便找个表试用下就可以了!bug也是有的,比如说进度条。我没有时间去搞他,删之前分享出去。
2021-11-25 22:23:18 29KB PB pipeine 数据管道 powerbuilder
1
阿里HBase的数据管道设施实践与演进_阿里巴巴.pdf
2021-08-24 11:03:18 2.05MB 数据库
重新发明演示 Swipely 的数据管道演讲演示 设置 结算数据文件保存到 s3://swipely-reinvent-demo/data/settlements.csv,格式为card_token, store, occurred_at, price, authorization_id : abc01,merchant-20,2012-06-08 00:59:25,1495,123 abc02,merchant-09,2012-06-12 22:09:30,2800,456 abc03,merchant-09,2012-06-12 22:43:37,2550,789 MySQL实例: create database customer_demo; use customer_demo; create table sales_by_day (store varchar(64), day
2021-07-02 15:03:54 8KB Ruby
1
波西米亚数据管道 该存储库包含由DataBrew创建的实用程序和指南,供波西米亚研究团队使用。为了重现性和透明性,它是公开可用的。 导游 波西米亚的不同团队成员可以使用几种“操作方法”指南: 这是一个分步演练,显示了如何从头开始设置Bohemia数据系统。这包括从域配置和安全证书到服务器端软件先决条件和数据库配置的所有内容。 波西米亚数据系统建立在ODK框架上,允许创建和修改针对波西米亚项目不同研究组成部分的调查表。本指南显示了如何创建和部署表单。 本指南适用于特定于站点的数据管理器。它假设一个具有表单的正常运行的系统(指南1和2)。 部署系统并创建表格后,需要在Android设备(手机或平板电脑)上安装数据收集软件。本指南说明了如何。 本指南适用于现场工作人员,并概述了如何收集和上传数据。 本指南说明了如何将波西米亚系统中的数据导出到本地计算机,以进行探索或分析。 有一个独立的R软件包,
2021-03-19 18:09:27 140.35MB HTML
1
学习如何在异构的运行环境里使用Pipeline61管理数据管道Pipeline61的三个主要组件:执行引擎、数据服务,以及依赖和版本管理器自动化版本控制和依赖管理为我们提供了历史可追踪性和可再现性比较几个数据管道框架,如Crunch、Pig、Cascading、Flume和Tez案例学习:使用Pipeline61处理三种不同格式的数据(CSV、文本和JSON)这篇文章先是出现在IEEESoftware杂志上,IEEESoftware是一本提供严谨科技资讯的杂志。企业总是在可靠性和灵活性方面面临挑战,IT经理和技术领导者依赖IT专家们来提供高超的解决方案。Pipeline61框架可以用于为异构的
1