k-means聚类算法及matlab代码 项目名称:数据挖掘课作业 项目组成 1. exp1 实验一 《多源数据集成、清洗和统计》 题目 广州大学某班有同学100人,现要从两个数据源汇总学生数据。第一个数据源在数据库中,第二个数据源在txt文件中,两个数据源课程存在缺失、冗余和不一致性,请用C/C++/Java程序实现对两个数据源的一致性合并以及每个学生样本的数值量化。 两个数据源合并后读入内存,并统计: 学生中家乡在Beijing的所有课程的平均成绩。 学生中家乡在广州,课程1在80分以上,且课程9在9分以上的男同学的数量。(备注:该处做了修正,课程10数据为空,更改为课程9) 比较广州和上海两地女生的平均体能测试成绩,哪个地区的更强些? 学习成绩和体能测试成绩,两者的相关性是多少?(九门课的成绩分别与体能成绩计算相关性) 实验一__目录结构 --data1.xlsx 插入数据库的原始数据 --data2.txt 从文件读入的原始数据 --data3.csv 清洗完毕的数据 --data4.csv 清洗完毕的经过特意处理数据 --insertData.py 插入数据库的完整代码 --
2022-09-16 19:29:47 527KB 系统开源
1
数据挖掘:概念与技术书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。
2022-09-16 10:25:37 1.74MB 数据挖掘:概念与技术
1
Sqlserver2005数据挖掘与商业智能完全解决方案(带Word文档及代码)
2022-09-16 09:05:00 57.38MB sqlserver 数据挖掘 商业智能 数据仓库
1
基于情感词典的方法主要依赖于情感词典的构建,是指利用情感词典获取文档中情感词的情感值,再通过加权计算确定文档的整体情感倾向。使用此方法时不考虑词语之间的联系,词语的情感值不会随着应用领域和上下文的变化而变化,因此需要针对特定领域建立相关的情感词典提高分类的准确率。情感词典是情感分析系统的基础知识库,是数字、文本与符号集合。在缺乏大量训练数据集的情况下,基于词典与规则的方法相对能取得较好的分类结果且易于理解,但是网络用语不断涌现,情感词典需要不断更新扩展以提高分类的准确率。情感词典也存在一定的局限性,首先,情感词的判别与选择取决于先验知识与实验设计;其次,针对不同领域还需要构造相应的领域情感词典,跨领域情感分析的分类效果不佳。
2022-09-14 13:41:33 92KB 情感词典
1
大数据安全管控分类分级实施指南
2022-09-08 15:56:55 959KB 分类 数据挖掘 人工智能 机器学习
本书针对数据的海量性、复杂性、高维性、模糊性和不完整性,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究。设计与实现了基于密度和自适应密度可达聚类算法、基于簇特征的动态增量聚类算法、并行聚类算法、基于密度加权的模糊聚类算法、高唯复杂数据聚类算法、基于数据场的聚类算法、基于距离的量化关联规则和基于数据场的量化关联规则算法,给出了在矿产资源评价、遥感图像分类、矿业经济分析中的应用例证。全书共分11章,主要内容包括:绪论,基于密度和密度可达聚类分析,基于簇特征的动态增量聚类分析,并行聚类分析,基于密度加权的模糊聚类分析,高唯复杂数据聚类分析,基于数据场的聚类分析,基于距离的量化关联规则,基于数据场的量化关联规则,数据挖掘结果可视化和数据挖掘算法应用。
2022-09-07 21:38:37 108.34MB 大数据挖掘
1
美的从制造到智造-数字化转型之路(1).pdf
2022-09-05 20:08:34 16.31MB 制造 数据分析 数据挖掘
基于attention文本分类代码基于attention文本分类代码基于attention文本分类代码
10多年程序猿经验总结openmv4形状识别
2022-09-01 18:05:42 337KB python 画图 数据挖掘
1
数据挖掘项目 推文聚类 目标: 主Twitter API用于提取推文 掌握自然语言处理 数据清理 推文分类 要求: Twitter开发人员帐户 Twitter API 1-数据提取: 导入库(tweepy +熊猫+ numpy) 连接到Twitter API 将推文提取到多个csv文件中,然后将它们组合到一个csv文件中 2-处理前的推文: 使用re库搜索不必要的信息。 删除标点符号,主题标签,个人资料名称,URL和表情符号。 创建一个新的干净的CSV文件 3-处理推文:自然语言处理 导入nltk(自然语言工具包),它由最常用的算法组成,例如标记化,词性标记,词干,情感分析,主题细分和命名实体识别。 NLTK帮助计算机分析,预处理和理解书面文本。 使用“停用词”摆脱英语单词,这些单词不会给句子增加太多含义。 在不牺牲含义的前提下,可以安全地忽略它们。 使用“ Porte
2022-08-31 21:34:30 1.86MB JupyterNotebook
1