一、为什么需要进行可扩展性研究? 1训练集大,准确率上升 2为了寻找到小事件情况 3其他需要 多大的数据量? 100M-1G 二、什么是可扩展性? 时间复杂度: 和记录个数、属性之间的关系。 对空间的需求: 避免超过主存的情况。 模型结果的质量: 质量不能明显的降低。
2022-02-05 09:13:52 174KB 数据挖掘 算法 big data
基本概念 类Apriori生成候选算法 FreeSpan算法,PrefixSpan算法 相似性搜索 其他
2022-02-05 09:13:51 727KB 数据挖掘 big data 算法
电子商务推荐系统简介 电子商务推荐系统技术介绍 基于关联规则的推荐算法 基于最近邻居的协同过滤算法 基于项目的协同过滤算法
2022-02-05 09:13:51 272KB 数据挖掘 big data 算法
【主要内容】 序列模式简介 GSP算法 PrefixSpan算法
2022-02-05 09:13:50 553KB 数据挖掘 算法 big data
使用约束的必要性 在数据挖掘中常使用的几种约束: 知识类型约束:指定要挖掘的知识类型 如关联规则 数据约束: 指定与任务相关的数据集 Find product pairs sold together in Vancouver in Dec.’98. 维/层次约束:指定所用的维或概念结构中的层 in relevance to region, price, brand, customer category. 规则约束:指定要挖掘的规则形式(如规则模板) 单价 (price $200). 兴趣度约束:指定规则兴趣度阈值或统计度量 如 (min_support ? 3%, min_confidence ? 60%).
2022-02-05 09:13:50 292KB 数据挖掘 big data 算法
【提纲】 1.问题 当前业界现状与搜索引擎效果 2.效果评价方法 基于人工标注的评价和改进体系 3.衍生产物 各家搜索效果特点 再论元搜索
2022-02-05 09:13:49 1.63MB 搜索引擎 数据挖掘 big data
【目录】 概述 统计学习理论中的基本概念 统计学习理论的发展简况 统计学习理论的基本内容 支持向量机概述 研究现状 参考文献
2022-02-05 09:13:49 2.01MB 支持向量机 数据挖掘 人工智能 big
什么是频繁模式分析? 频繁模式是频繁的出现在数据集中的模式 如项集、子序或者子结构 动机:发现数据中蕴含的内在规律 那些产品经常被一起购买?---啤酒和尿布? 买了PC之后接着都会买些什么? 哪种DNA对这种新药敏感 我们能够自动的分类WEB文档吗? 应用 购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等 频繁模式挖掘的重要性 揭示数据集的内在的、重要的特性 作为很多重要数据挖掘任务的基础 关联、相关和因果分析 序列、结构(e.g.子图)模式分析 时空、多媒体、时序和流数据中的模式分析 分类:关联分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山方体计算
2022-02-04 14:06:57 2.88MB 数据挖掘 人工智能
【完整课程列表】 数据仓库原理 数据仓库设计与应用 第2章 数据仓库开发模型(共30页).ppt 数据仓库原理 数据仓库设计与应用 第3章 数据仓库开发应用过程(共48页).ppt 数据仓库原理 数据仓库设计与应用 第4章 OLAP技术 联机分析处理技术(共29页).ppt 数据仓库原理 数据仓库设计与应用 第5章 传统数据挖掘技术(共35页).ppt 数据仓库原理 数据仓库设计与应用 第6章 现代数据挖掘技术与发展(共41页).ppt 数据仓库原理 数据仓库设计与应用 第7章 数据仓库应用与管理(共32页).ppt
2022-01-30 22:12:11 1.01MB 数据仓库 数据管理 数据平台 数据挖掘
【完整课程列表】 数据仓库原理 数据仓库设计与应用 第2章 数据仓库开发模型(共30页).ppt 数据仓库原理 数据仓库设计与应用 第3章 数据仓库开发应用过程(共48页).ppt 数据仓库原理 数据仓库设计与应用 第4章 OLAP技术 联机分析处理技术(共29页).ppt 数据仓库原理 数据仓库设计与应用 第5章 传统数据挖掘技术(共35页).ppt 数据仓库原理 数据仓库设计与应用 第6章 现代数据挖掘技术与发展(共41页).ppt 数据仓库原理 数据仓库设计与应用 第7章 数据仓库应用与管理(共32页).ppt