数据载体
DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0许可提供您的贡献。
为什么要使用DataVec?
数据处理有时会很混乱,我们认为它应该与高性能代数库(例如nd4j或Deeplearning4j)区分开。
DataVec使从业人员可以获取原始数据并快速生成符合开放标准的矢量化数据(svmLight等)。 开箱即用支持的当前输入数据类型:
CSV数据
原始文本数据(推文,文本文档等)
图片资料
支持库
SVMLight
MatLab(MAT)格式
JSON,XML,YAML,XML
Datavec从许多Hadoop生态系统工具中汲取了灵感,尤其是通过Hadoop API访问磁盘上的数据(就像S
1