一、为什么需要进行可扩展性研究? 1训练集大,准确率上升 2为了寻找到小事件情况 3其他需要 多大的数据量? 100M-1G 二、什么是可扩展性? 时间复杂度: 和记录个数、属性之间的关系。 对空间的需求: 避免超过主存的情况。 模型结果的质量: 质量不能明显的降低。
2022-02-05 09:13:52 174KB 数据挖掘 算法 big data
基本概念 类Apriori生成候选算法 FreeSpan算法,PrefixSpan算法 相似性搜索 其他
2022-02-05 09:13:51 727KB 数据挖掘 big data 算法
电子商务推荐系统简介 电子商务推荐系统技术介绍 基于关联规则的推荐算法 基于最近邻居的协同过滤算法 基于项目的协同过滤算法
2022-02-05 09:13:51 272KB 数据挖掘 big data 算法
【主要内容】 序列模式简介 GSP算法 PrefixSpan算法
2022-02-05 09:13:50 553KB 数据挖掘 算法 big data
使用约束的必要性 在数据挖掘中常使用的几种约束: 知识类型约束:指定要挖掘的知识类型 如关联规则 数据约束: 指定与任务相关的数据集 Find product pairs sold together in Vancouver in Dec.’98. 维/层次约束:指定所用的维或概念结构中的层 in relevance to region, price, brand, customer category. 规则约束:指定要挖掘的规则形式(如规则模板) 单价 (price $200). 兴趣度约束:指定规则兴趣度阈值或统计度量 如 (min_support ? 3%, min_confidence ? 60%).
2022-02-05 09:13:50 292KB 数据挖掘 big data 算法
【提纲】 1.问题 当前业界现状与搜索引擎效果 2.效果评价方法 基于人工标注的评价和改进体系 3.衍生产物 各家搜索效果特点 再论元搜索
2022-02-05 09:13:49 1.63MB 搜索引擎 数据挖掘 big data
【目录】 概述 统计学习理论中的基本概念 统计学习理论的发展简况 统计学习理论的基本内容 支持向量机概述 研究现状 参考文献
2022-02-05 09:13:49 2.01MB 支持向量机 数据挖掘 人工智能 big
1. 案例开发练习 问题 依次完成以下两小题的任务: (1) 代码实现网站连续几日UV量统计 (2) 网站每日每个连接来源统计 数据:access.log(nginx服务器中获取)
2021-12-16 16:10:28 63KB java 大数据 Mapreduce 数据挖掘
1
数据挖掘:数据清洗——数据噪声处理 一、什么是数据噪声? 数据噪声(Noise):数据集中的干扰数据(对场景描述不准确的数据),即测量变量中的随机误差或方差。 二、噪声数据与离群点的区别 观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise):而离群点(Outlier)属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值。 数据噪声与离群点有很多相同的地方。之间没有太过明确的定义,主要看应用的场景。如在信用卡诈骗中,我们通常会关注那些少量的异常数据,此时数据是具有探索意义的。而在一般的场景下,离
2021-11-24 14:57:50 422KB 大数据 数据 数据挖掘
1
博客《【Python】随机森林算法——东北大学大数据班数据挖掘实训四》的数据 利用train.csv中的数据,通过H2O框架中的随机森林算法构建分类模型,然后利用模型对test.csv中的数据进行预测,并计算分类的准确度进而评价模型的分类效果;通过调节参数,观察分类准确度的变化情况。注:准确度=预测正确的数与样本总数的比【注:可以做一些特征选择的工作,来提高准确度】
2021-10-13 14:21:00 52KB 数据挖掘 数据
1