表格,数据,文本集,日志,网址,测量值---这些以及其它类似的信息是每一个数据挖掘流程在一开始就要用到的。准备好的数据会被转化并合并,最后您会得到一个新的或是以不同方式显示出来的数据、模型或报告。在这一章我们会为您介绍如何用RapidMiner Studio处理这些信息。 5.1RapidMiner Studio的资源库 一旦您收集的流程及相关文件超过了一定的大小,您会发现RapidMiner会智能化的以一个一致的结构化的方式存储这些信息。其中一种可能性是以文件夹的形式存储流程。文件夹会根据流程分类,每一个流程的文件夹有一个目录,目录里面包含了输出数据,中间结果,报告等信息。 系统化、结构化地存储流程是个明智的选择,只有在极少的情况下我们会推荐选用普通的文件夹系统存储流程,因为普通文件夹存储系统很难满足数据挖掘方案的需求。因为不同的原因,例如机密性或者存储空间有限,会导致不能在本地电脑上创建文档。如果要在一个远程服务器上执行一个在本地电脑上创建的流程,就需要进行手动操作,例如复制流程及调整路径。创建流程,操作数据及评估分析结果都需要一个外部的权限和版本管理。以不同的格式存储的文件需要正确的参数设置,例如分隔符、新下载数据的代码。中间结果和流程变量的数量增长很快,这意味着您很容易就会无法跟踪这些数据。下载和查看数据,重新了解一下概况,这可能需要一个很长的流程甚至需要运行一个外部应用。文件注解能够让您更容易的掌控这些数据信息,但是普通的文件系统不支持这个功能。 RapidMiner应对所有这些问题的方法是资源库,它存储了所有的数据和流程。虽然我们也能从资源库以外的地方提取数据到流程中,但是外部提取数据需要运行外部流程等,而资源库可以为您提供很多便利:  结构化的数据、流程、分析结果和报告的存储位置说明了它们间相互关系,这些相互关系完全透明化的展现在用户面前。  不需要其他设置,您就可以打开或下载文件。只需点击一下,您就可以打开、查看数据或提取数据到流程中。您能够看到存储数据的概况,在不需要逐个打开这个文件的前提下,您可以随时为这些数据赋予特征、做上标记。
2021-08-08 13:07:23 528KB 数据挖掘 数据分析 RapidMiner 数据管理
#资源达人分享计划#《信息技术 数据管理能力成熟度评估方法》国标规范(征求意见稿).doc
1
#资源达人分享计划#《信息技术 数据管理能力成熟度评估方法》国标规范(征求意见稿)编制说明.docx
1
一个实用的数据导入,导出和合并的c#程序
2021-08-05 15:26:48 3.49MB 数据管理
1
行业分类-物理装置-基于智慧商场的大数据管理系统.zip
Stata16数据分析数据管理统计软件
请自行下载PDMReader数据阅读器
2021-08-03 17:08:09 130KB 浪潮GS 数据字典
1
主要介绍企业主数据治理对应的方法
2021-08-03 14:02:10 1.7MB 数据治理
1
数据管理DMS是基于阿里巴巴集团十余年的数据库服务平台的云版本,提供免安装、免运维、即开即用、多种数据库类型与多种环境统一的web数据库管理终端;可以为企业用户快速复制搭建与阿里集团同等安全、高效、规范的数据库DevOps研发流程解决方案。
2021-08-03 09:37:19 86.05MB 免费 客户端 数据管理 研发流程
1
由全国信标委大数据标准工作组制定的数据资产管理能力成熟度评估模型
2021-08-02 13:55:37 20.26MB 数据资产 数据治理
1