上传者: 42134537
|
上传时间: 2021-10-06 17:18:08
|
文件大小: 26.14MB
|
文件类型: -
数据集
此存储库包含用于下载,预处理和数字化流行的机器学习数据集的脚本。 在整个项目中,我通常会发现自己重写了相同的代码行以标准化,规范化或其他化数据,对分类变量进行编码,解析出要素的子集以及其他杂项。 为了减轻重复使用的麻烦,此存储库使用了模板样式的定义,该定义用于应如何解析数据集,而库则负责其余部分。
对于加载数据,它支持numpy.genfromtxt可以使用和arff任何内容(来自 )。 为了处理数据,在utils/scale.py和utils/preprocess.py有许多流行的scikit-learn preprocessing转换器的包装器。
主要的魔力可以在utils/handler.py找到; 在底部,提供了示例模板。 参数为:
争论
描述
header
标题行是否存在(将被删除)
include
只加载指定的列
label
标签索引
norm
unit