k-means聚类算法及matlab代码
项目名称:数据挖掘课作业
项目组成
1.
exp1
实验一
《多源数据集成、清洗和统计》
题目
广州大学某班有同学100人,现要从两个数据源汇总学生数据。第一个数据源在数据库中,第二个数据源在txt文件中,两个数据源课程存在缺失、冗余和不一致性,请用C/C++/Java程序实现对两个数据源的一致性合并以及每个学生样本的数值量化。
两个数据源合并后读入内存,并统计:
学生中家乡在Beijing的所有课程的平均成绩。
学生中家乡在广州,课程1在80分以上,且课程9在9分以上的男同学的数量。(备注:该处做了修正,课程10数据为空,更改为课程9)
比较广州和上海两地女生的平均体能测试成绩,哪个地区的更强些?
学习成绩和体能测试成绩,两者的相关性是多少?(九门课的成绩分别与体能成绩计算相关性)
实验一__目录结构
--data1.xlsx
插入数据库的原始数据
--data2.txt
从文件读入的原始数据
--data3.csv
清洗完毕的数据
--data4.csv
清洗完毕的经过特意处理数据
--insertData.py
插入数据库的完整代码
--
2022-09-16 19:29:47
527KB
系统开源
1