关于kettle的电子书,书中介绍了kettle的使用,对于初学者有帮助
2023-01-05 10:03:00 113.49MB kettle
1
datax-web-2.1.2,大数据、etl工具、数据抽取
2022-12-29 09:26:54 207.48MB 大数据 数据抽取 etl
1
ETL设计方案 1. ETL调度系统设计(ETL Schedule) 1. 调度系统的功能 1)可配置JOB任务的前后依赖关系,确保顺利调度. 2)可配置JOB任务优先级,指定调度模块的先后顺序。 3)可配置JOB任务调度频率,如日调度/月调度/年调度等。 4)通过高配置性和可视化界面,提高开发人员和维护人员工作效率. 2. 调度系统功能图示 3. 调度系统流程说明 1. 手工配置调度配置表:首先JOB任务上线后,由开发人员将新开发的JOB任务配置到 调度配置表。 2. 每天初始化调度状态表:每天调度系统在【调度配置表】中将当天需要调度的任务 列表新增到【调度状态表】中,新增任务的状态均为"未执行"。 3. 轮询调度调度状态表任务:调度系统从指定时间开始(如凌晨0:30),依照【调度状 态表】顺序,依次执行每一个JOB任务,其中判断任务的前提条件是否符合。 4. 反馈调度状态:根据日志表任务执行情况,向【调度状态表】/【调度日志流水表】写 JOB任务调度状态.如当任务执行成功,将该任务记录从【调度状态表】中删除, 并在【调度日志流水表】中新增完成记录。当任务执行失败,则将任务记录在【
2022-12-25 18:14:19 44KB 文档资料
1
数据载体 DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0许可提供您的贡献。 为什么要使用DataVec? 数据处理有时会很混乱,我们认为它应该与高性能代数库(例如nd4j或Deeplearning4j)区分开。 DataVec使从业人员可以获取原始数据并快速生成符合开放标准的矢量化数据(svmLight等)。 开箱即用支持的当前输入数据类型: CSV数据 原始文本数据(推文,文本文档等) 图片资料 支持库 SVMLight MatLab(MAT)格式 JSON,XML,YAML,XML Datavec从许多Hadoop生态系统工具中汲取了灵感,尤其是通过Hadoop API访问磁盘上的数据(就像S
2022-12-17 18:04:45 24.28MB machine-learning formatter schema spark
1
dbeaver7.3.1 大数据开发连接利器,本发布软件目前已集成支持HIVE、vertica及主流常用数据库驱动。其余需要用到的数据库驱动参见对应数据库官网驱动包。
2022-11-30 09:24:44 116.72MB 大数据 数据分析 海量数据挖掘 etl
1
1、ETL测试工具-QuerySurge工具的使用
2022-11-21 09:35:04 1.39MB 大数据测试 ETL测试 ETL测试工具 QuerySur
1
etl开发工具kettle7
2022-11-19 11:03:53 794.2MB etl
1
数据库sakila中一共含有十六张数据表,分别是actor(演员)表、address(地址)表、category(类别)表、city(城市)表、country(国家)表、customer(顾客)表、film(电影)表、film_actor(演员所属电影)表、film_category(电影所属的类别)表、film_text(电影描述)表、inventory(库存)表、language(语言)表、payment(付款)表、rental(租赁)表、staff(工作人员)表以及store(商店)表。
2022-11-18 21:15:00 3.22MB mysql etl 构建DVD租赁商店数据仓库
1
数据同步工具:Kettle 适用场景: 1. 分布式企业级数据同步 2. 数据的更新时间允许重复 3. 实时性高 4. 允许偶尔丢失一两条数据,手动补偿 5. 删除数据不是物理删除 6. 能支撑海量数据同步
2022-11-11 10:06:45 242KB 数据同步 Kettle ETL
1
kettle 使用表输入mysql分页多线程插入数据
2022-11-10 19:15:07 26KB kettle etl
1