使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现,r, 将其网站的书名,作者,书籍封面图片,书籍概要,原始网址链接,书籍下载信息和书籍爬取到本地:分布式使用redis实现,redis中存储了工程的request,stats信息,能够对各个机器上的爬虫实现集中管理,。
2024-06-28 15:09:25 9.74MB python 分布式 毕业设计 爬虫
1
项目概况 开发环境:Jupyter Notebook(Anaconda3的应用包下) 项目描述 一、获取数据集并预处理 在网上(例如Kaggle)下载数据集,读入数据并进行数据预处理。 二、根据特征群进行可视化分析 数据总体分成三大特征群,逐一分析各特征群下,每个特征在特征群中的重要程度,在客户流失因素上的重要程度。对数据进行可视化分析,通过饼状图的对比,对各项特征指标有一个直观的清晰的 认识。 三、特征工程与类别平衡 数据预测前一系列处理,先进行特征工程处理,结合皮尔逊相关系数,把无用特征进行剔除,完善字符编码格式。再处理类别不平衡的问题(正负样本数相差较多,易导致数据倾斜或不准确)。 四、模型使用与评估 使用机器学习模型与模型评估方式,用K折交叉验证计算方式,分别对逻辑回归,随机森林,AdaBoost,XGBoost模型进行评估,得出预测模型的准确度,后续选择其中之一进行实际预测,并输出模型中的特征重要性。 五、总结分析与制定决策 总结分析,合并各客户的预测流失率与真实流失率,形成关系表。运营商可以根据分组情况的结果设定阈值并进行决策,从而确定分界点进行客户召回措施。
2024-06-28 13:06:06 10.88MB Kaggle
1
零基础征服数据结构算法Python版视频教程2023
2024-06-28 11:34:08 200B 数据结构 python
1
手写数字识别python 在这个示例中,我们使用PyTorch实现了一个基于LeNet5模型的手写数字识别器,并在MNIST数据集上进行了训练和测试。代码中包括数据加载、模型定义、损失函数和优化器的声明,以及训练和测试的代码逻辑。需要注意的是,在实际使用过程中,我们需要根据具体的应用场景选择合适的模型结构、损失函数、优化器等,并对数据进行适当的预处理和后处理。
2024-06-28 11:29:51 3KB pytorch pytorch python
1
资源中包含了诸多关于商品零售信息的资源,可作为数据分析与可视化的数据
2024-06-28 09:40:10 6.55MB 数据集 python 数据分析 数据可视化
1
python模拟高考录取
2024-06-27 19:59:40 4.95MB python 数据处理 学习笔记
1
基于深度学习的鸟类识别系统,可以识别六种鸟类,资源包含训练数据集。
2024-06-27 16:49:20 131.01MB python
1
gen_argb8888.py实现将当前目录下所有png图片转为argb8888格式 gen_argb8888_v2.py实现将当前目录下所有png图片和子目录转为argb8888格式
2024-06-27 14:02:30 27KB python 图片转换
1
包括了用于将VOC格式标签转化为yolo格式标签的python脚本,生成训练集、验证集和测试集的python脚本,YOLOv8配置文件,以及训练所有子集的python脚本
2024-06-26 23:43:42 130.4MB python
1
携程游记爬取+词云分析
2024-06-26 20:07:08 8.16MB 爬虫 python 词云
1