数据挖掘十大经典机器学习算法,国际权威的学术组织 the IEEE International Conference on Data Mining (ICDM) 2006 年 12 月评选出了数据挖掘领域的十大经典算法: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost,kNN, Naive Bayes, and CART.
2023-03-21 16:10:15 839KB 数据挖掘 经典算法 机器学习
1
数据挖掘导论(第二版)第3章:分类-基础.pptx
2023-03-20 16:27:09 1.77MB 数据挖掘导论(第二版)
1
韩家伟的第二版,数据挖掘的课后答案,数据挖掘的首选教材,学而不思则罔思而不学则呆。学习的同时多思考
2023-03-19 01:44:30 287KB 数据挖掘 课后答案
1
介绍文本向量化、tfidf、主题模型、word2vec,既会涉及理论,也会有详细的代码和案例进行讲解,希望在梳理自身知识体系的同时也能对想学习文本挖掘的朋友有一
2023-03-18 11:48:16 1.16MB 数据挖掘 sklearn keras word2vec
1
Real_Time_DataMining_Sortware 一款能实时进行文本挖掘的软件,不占用多余的存储空间,直接将采集后的数据集中存储在本地txt中,运用本软件无需进行大量的手动翻页操作,输入对应的店铺链接即可对民宿进行分析包含接结构化数据的可视化和非结构化UGC的情感分析,包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo。基于在线民宿UGC数据的意见挖掘项目,包含数据挖掘和NLP相关的处理,负责数据采集、整句切分、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线UGC进行数据挖掘并可视化,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。 软件包含数据采集(txt_analys
2023-03-18 01:22:15 1.86MB nlp demo sentiment-analysis data-spider
1
数据挖掘实习报告 数据挖掘实习报告全文共32页,当前为第1页。数据挖掘实习报告全文共32页,当前为第1页。数据挖掘实习报告 数据挖掘实习报告全文共32页,当前为第1页。 数据挖掘实习报告全文共32页,当前为第1页。   篇一:数据挖掘实习报告   通过半年的实习,我在这里得到了一次较全面的、系统的锻炼,也学到了许多书本上所学不到的知识和技能。以下是我这次的实习鉴定。   经历了实习,对社会也有了基本的实践,让我学到了书本以外的知识,实习期间,我努力尽量做到理论与实践相结合,在实习期间能够遵守工作纪律,不迟到、早退,认真完成领导交办的工作。在实习鉴定中,我参与了整个数据分析工作,从数据获取到数据清洗、数据报表的制定到模型的建立以及模型监控等等,让我充分学习了数据分析岗位的实际操作。   在实习初期,项目经理安排了我参与数据获取的相关工作,主要是编写SQL代码在linux上用Perl语言调用获取数据。起初觉得自己对SQL语言了解较多,以为这份工作非常简单。但实际操作起来才知道,在数据量达到几百兆甚至上GB级别的时候,所学的SQL根本解决不了问题。经向项目经理学习,这才知道了如何使用分层次操作等速度较快的SQL技巧。通过这两个月的实习充分认识到所学知识远远不够。   完成数据获取阶段之后,项目经理开始安排数据清洗以及数据报表制定的相关工作。接到这份工作之初,对数据清数据挖掘实习报告全文共32页,当前为第2页。数据挖掘实习报告全文共32页,当前为第2页。洗并没有太多的认识,以为很多都是按照《数据挖掘》教材中步骤进行就可以的。但经过项目经理指导之后才知道数据清洗之前首先要对项目业务进行一定的了解,只有清晰了业务数据的来源、数据的实际意义才知道哪些数据可以称为极端值,哪些数据又是不正常的,制定报告或者交给模型分析师时需要去除的等等。同时,在制定数据报表的同时学习了很多excel函数的使用,透视表的使用,PPT报告的书写等等。   在实习的后三个月,开始接触了模型的分析与监控。在学习《机器学习》以及《数据挖掘》书本时,总会想到各种各样的分类模型,也总会认为模型准确率高的模型才会是好模型。在运用统计模型之前,项目经理首先向实习生介绍了目前挖掘部门常用的分类模型以及具体的一些使用方法。其中逻辑回归模型、决策树模型是常用的分类模型,回归分析和时间序列模型是常用的预测模型,这与平日所学基本一致。正当好奇为什么不使用支持向量机以及神经络模型之时,项目经理说,由于模型结果都是要给市场部门的同事报告的,所以模型结果最好能够简单易懂的。在实际工作才知道,一般除了用模型准确率来衡量模型的效果外,还有例如灵敏度、ROC曲线、RA曲线等等指标值。而模型的操作过程也不是想象的那么简单,并不是用R软件上的几个函数,几行代码就能解决的,选择什么参数、选择什么样的模型,当然最重要数据挖掘实习报告全文共32页,当前为第3页。数据挖掘实习报告全文共32页,当前为第3页。的还是选择什么样的基础数据作为模型的训练数据才是最重要的,这才发现项目经理之前提到的业务知识是多么的重要。   在模型建立之后就是模型监控了,由于是我负责的项目,所以项目经理也将监控这一任务交给了我。数据挖掘模型通常情况下都是要上线的,但模型的效果会随着数据的变化而变化,当模型的指标达到一定程度时就需要修改模型。在这一阶段,充分锻炼了我的程序编写能力。   在整一个实习过程,非常感谢项目经理给予了我数据挖掘整一个流程学习的机会,让我真正对数据挖掘的实际工作有了一定的认识,也让我学习到了很多学校学习中学不到的实际操作能力,在此表示衷心的感谢。   篇二:数据挖掘实验报告   经贸学院 市场营销专业   数据挖掘管理实验报告   实验名称: 数据挖掘—聚类分析   实验时间:XX年12月21日   班 级 11252   姓 名 潘宏   学 号 1125219   成 绩   指导老师 王林 数据挖掘实习报告全文共32页,当前为第4页。数据挖掘实习报告全文共32页,当前为第4页。  一、数据建模过程   1、启动SPSS 双击窗口底部节点选项板中的"源"中的statistics文件建立文件,如图1。   图1   2、右击statistics文件编辑,如图2。   图   2   3、点击省略号其中一个选择文件打开。单击应用并确定,如图3和   图3   图   4   4、双击输出选项中的表节点,如图5所示,表节点出现在工作区中。   图5   5、如图6所示,右击运行表节点。可以看到图中关于客户资产购   平台价值的数据记录。该数据包含A1,A2等字段。   图   6   6、如图7,在字段选项中双击类型节点,则类型节点出现在工作表 数据挖掘实习报告全文共32页,当前为第5页。数据挖掘实习报告全文共32
2023-03-14 20:39:10 78KB 文档资料
1
Data Mining concepts and techniques
2023-03-14 10:26:15 1.83MB 数据挖掘
1
流行性感冒是一种传染性疾病,传播Swift而广泛。 流感的爆发给社会带来了巨大的损失。 本文设置了流感关键词的四个主要类别,即“预防阶段”,“症状阶段”,“治疗阶段”和“常用短语”。 使用Python网络爬虫从国家流感中心的流感监测每周报告和百度索引中获取相关的流感数据。 通过机器学习建立支持向量回归(SVR),最小绝对收缩和选择算子(LASSO),卷积神经网络(CNN)预测模型,并考虑了流感的季节性特征,还建立了时间序列模型(ARMA) )。 结果表明,基于网络搜索数据预测流感是可行的。 机器学习在基于Web搜索数据的流感预测中显示出一定的预测效果。 今后它将在流感预测中具有一定的参考价值。 ARMA(3,0)模型可预测更好的结果并具有更大的概括性。 最后,给出了本文的研究不足和今后的研究方向。
2023-03-13 14:46:15 2.23MB 数据挖掘 网络搜索 机器学习 百度指数
1
3.1 通过爬虫对淘宝服饰的销量、评分、评价等数据进行爬取 3.2 数据清洗 3.3 对评价内容进行取样分词统计出关键词 3.4 运用hive以关键字对总体数据的统计
2023-03-13 11:03:16 2.36MB 数据挖掘
1
云南大学软件工程专业的数据挖掘各个实验(包含7个实验) 实验一: 一、 实验目的 1. 掌握朴素贝叶斯算法。 2. 选择一种编程语言应用朴素贝叶斯算法。 二、 实验内容 1.在一个简单的、虚拟的数据集(训练集)上应用离散型朴素贝叶斯模型。该数据集如下: 2.构建预测数据集,并在数据集上应用离散型朴素贝叶斯模型。 帅,不好,矮,不上进,不嫁 不帅,好,矮,上进,不嫁 帅,好,矮,上进,嫁 不帅,好,高,上进,嫁 帅,不好,矮,上进,不嫁 不帅,不好,矮,不上进,不嫁 帅,好,高,不上进,嫁 不帅,好,高,上进,嫁 帅,好,高,上进,嫁 不帅,不好,高,上进,嫁 帅,好,矮,不上进,不嫁 帅,好,矮,不上进,不嫁
2023-03-10 16:02:57 3.55MB 云南大学 软件工程 数据挖掘
1