大数据期末大作业 数据挖掘, 爬虫相关,朴素贝叶斯分类器python 简介: 运用爬虫技术以及朴素贝叶斯分类对抓取的新闻进行分类, 分析每种新闻在网站中的占比 已定义的新闻类别: 财经 科技 汽车 房产 体育 娱乐 其他 1. 环境以及依赖 python环境 python==3.9 依赖的第三方库: jieba parseurl bs4 numpy 2. 使用模型 朴素贝叶斯分类器 实现:纯python实现 3. 数据来源 新闻共分7类,新闻信息在此采集: 1 财经 http://finance.qq.com/l/201108/scroll_17.htm 2 科技 http://tech.qq.com/l/201512/scroll_02.htm 3 汽车 http://auto.qq.com/l/201512/scrollnews_02_2.htm 4 房产 http://gd.qq.com/l/house/fcgdxw/more_7.htm 5 体育 http://sports.qq.com/l/201512/scrollnews_01_2.htm 6 娱乐 http
2024-06-24 14:11:55 1.47MB 数据挖掘 python 朴素贝叶斯分类器
1
PEMS 数据集是由美国加利福尼亚州的交通部门联合其他伙伴机构建立的统一公开交通数据库。美国加利福尼亚州的交通部门在交通路网上大约设置了超过39000 个交通监测站,交通管理部门安装在路网上的各类传感器可以实时地收集所在高速公路上的交通状况信息,越是接近市区人口密集的地区,传感器布置的也越密集,从分布上来看,这些传感器大多被安置在靠近市区的路段上。PEMS提供了超过十年的历史交通状况数据,整合了有关加州运输公司以及其他交通机构系统的各类信息。 PemsD7 交通数据集:数据由分布在加利福尼亚州高速公路系统(CalTrans)中选择 228 个站点数据。数据集从30 秒的数据样本聚合到5 分钟的时间间隔内。时间范围在 2012 年5 月和6 月的工作日的228 个站点交通速度信息,数据包括邻接矩阵和特征矩阵。 邻接矩阵是通过分析已有时空交通数据的特性,构建一种新的具有相似交通流量模式的 矩阵,特征矩阵是每个传感器节点的时间序列特征矩阵。
2024-06-24 10:18:24 40.78MB 深度学习 交通预测 数据挖掘 交通网络
1
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。
1
这是基于python爬虫技术编程写的全球外贸数据爬虫系统,实现全球海关、关单、外贸数据的爬取。框架采用python多线程技术+request+代理IP池,实现了每天几十亿家采购商供应商外贸和关单数据实时采集和更新。
1
算法实验使用sklearn完成。 代码内容包括: 1.特征相关性热力图 2.特征筛选 3.使用: 'k近邻', '逻辑回归', '神经网络', '决策树', 'SVC', '集成学习随机森林', '集成学习adaboost', '梯度提升树', 'Xgboost' 共9类分类算法实验以及测试的结果。
2024-05-26 14:04:02 524KB 数据挖掘 人工智能
力窃漏电用户自动识别 1.背景与数据分析目的 a.通过电力系统采集到的数据,提取出窃漏电用户的关键特征, b.构建窃漏电用户的识别模型:以实现自动检查、判断用户是否是存在窃漏电行为。 2.数据预处理 通过对拿到的数据进行数据质量分析,检查原始数据中存在的脏数据,通过查看原始数据中抽取的数据,发现存在数据缺失的现象,使用朗格拉日插值法:选取缺失值前5个数据作为前参考组,缺失值后5个数据作为后参考组,处理缺失值程序. 3.挖掘建模 从专家样本中随机选取20%作为测试样本,剩下的80%作为训练样本,初步选择常用的分类预测模型:CART决策树和LM神经网络。 3.1 构建CART决策树模型 3.2 LM神经网络模型 3.3 CART和LM模型对比 结论:LM神经网络的ROC曲线比CART决策树更加靠近单位方形的左上角且LM神经网络的ROC曲线下的面积更大,则LM神经网络预测模型的分类性能更好,更适合应用于窃漏电用户自动识别当中。 将处理后的数据作为模型输入数据,利用构建好的模型(位于工程的tmp中)计算用户的窃漏电结果,并与实际调查结果做对比,对模型进行优化,进一步提高识别准确率。 ——
2024-05-17 16:13:17 116KB 数据分析 数据挖掘 python
数据标准化(Normalization)是指:将数据按照一定的比例进行缩放,使其落入一个特定的小区间。 为什么要进行数据标准化呢? 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同量级、不同单位或不同范围的数据转化为统一的标准数值,以便进行比较分析和加权。 通过手写Python代码对海伦约会对象数据集完成数据标准化归一化的预处理。 其中包含: (1)Min-Max标准化 (2)Z-Score标准化 (3)小数定标标准化 (4)均值归一化法 (5)向量归一化 (6)指数转换
2024-05-12 16:42:06 981B python 机器学习 数据挖掘 数据预处理
1
PEMS 数据集是由美国加利福尼亚州的交通部门联合其他伙伴机构建立的统一公开交通数据库。美国加利福尼亚州的交通部门在交通路网上大约设置了超过39000 个交通监测站,交通管理部门安装在路网上的各类传感器可以实时地收集所在高速公路上的交通状况信息,越是接近市区人口密集的地区,传感器布置的也越密集,从分布上来看,这些传感器大多被安置在靠近市区的路段上。PEMS提供了超过十年的历史交通状况数据,整合了有关加州运输公司以及其他交通机构系统的各类信息。 PemsD3 交通数据集:数据由分布在加利福尼亚州高速公路系统(CalTrans)中选择 228 个站点数据。数据集从30 秒的数据样本聚合到5 分钟的时间间隔内。时间范围在 2012 年5 月和6 月的工作日的228 个站点交通速度信息,数据包括邻接矩阵和特征矩阵。 邻接矩阵是通过分析已有时空交通数据的特性,构建一种新的具有相似交通流量模式的 矩阵,特征矩阵是每个传感器节点的时间序列特征矩阵。
2024-05-12 15:41:48 14.68MB 深度学习 数据挖掘 交通预测 交通网络
1
在这个项目中,我们将解决一个关于对进行个人贷款分类的问题。Thera-Bank的大部分客户都是存款人。同时也是借款人(资产客户)的客户数量相当少,银行有兴趣快速扩大这一客户群体,通过贷款利息来增加收入。特别是,管理层希望寻找方法将其负债客户转化为零售贷款客户,同时保持他们作为存款人。去年银行针对存款客户进行的一项活动显示了超过9.6%的转化率成功。这促使零售营销部门开发了更好的目标营销活动,以提高成功率并减少预算开支。该部门希望开发一个分类器,帮助他们识别更有可能购买贷款的潜在客户。 数据链接:https://www.kaggle.com/datasets/itsmesunil/bank-loan-modelling/
2024-04-26 14:16:16 7.22MB 数据挖掘
1
多款用于文本处理的软件,亲测有用: 1.文心中科院心理所计算网络心理实验室研发的中文文本语言分析软件系统。 2.KH Coder是一种用于计量文本分析或文本挖掘的自由软件。 3.ROST一款优秀的内容挖掘工具提供能够快速上手使用的功能。等等
2024-04-14 18:11:41 713.33MB 数据挖掘
1