该课题要求爬取目标网站:https://www.51job.com中,输入关键字后工作岗位的基本信息如岗位名字、岗位薪资、base地、福利、岗位要求、岗位需求公司、发布日期、公司所属行业、公司性质、招聘岗位简介、公司简介等,爬取过程中需要注意网页反爬机制。 (1)编写代码,模仿浏览器人为操作,通过关键字爬取人才网的职位信息; (2)将爬取到的网页信息进行信息预处理、清洗等。 (3)将处理完的数据存储在Mysql数据库中,数据库名为job,或者数据存储在名为job的Excel表格或名为job的记事本文件中。 (4)用数据可视化处理数据,生成岗位在地图上面的热力图、热门地区岗位薪资待遇柱状图、热门地区岗位招聘个数折线图以及以招聘地区出现次数的云图,从而反馈出岗位的热门地区以及薪资待遇。 (5)设计对抓取数据的备份还原机制,确保数据安全。
2023-02-02 16:45:36 3.63MB python 爬虫
1
实现基于Python的BP神经网络数据预测模型,压缩包中包含文件如下:源码BPNN.py主要用于使用训练数据集进行模型训练,生成对应的训练后模型参数;test.py主要用于利用训练好的模型对测试数据集进行预测,输出结果包括MAE、MAPE等误差值以及预测差值的分布情况等;train.csv为训练数据集,test.csv为测试数据集,.npy文件为训练后生成的权值、阈值。
1
本项目主要分为两个部分:爬取数据与处理数据 项目资源中包含了上述两个部分的源代码文件,其次包含了可视化中的词云图的背景图,以及停用词表、爬取的url集合、爬取的数据集合和最终生成的直方图集合与词云图集合 其中city文件为猎聘网城市代码与城市名称的对应关系
2023-01-30 14:51:07 1.36MB 爬虫 Python 数据处理与可视化
1
前言致学生既然你已经开始阅读本书,那么必定对计算机科学感兴趣。你可能也对Python这门编程语言感兴趣,并且已经通过之前的课程或自学有了一些编程经验。不论是何种
2023-01-30 09:16:03 10.42MB
1
该资源为综合项目实战_Python数据分析:豆瓣电影分析系统的一个完整项目 ——基于爬虫、Panads、MatplotLib、PyEcharts。 1)资源涵盖了python爬虫,爬虫抓取的内容为豆瓣top250网页数据,使用的库位urlrequest以及BeautifulSoup,以及在爬虫过程中使用了代理池的方式进行。(py文件) 2)资源涵盖了数据清洗,数据查重、数据分析,含电影排名分析,上榜次数统计分析,可视化数据分析maplotLib版,以及电影电影标签热度词云统计-可视化分析,以及可视化数据分析(PyEcharts版)(整理于ipynb文件) 该资源为数据分析师的一个完整进阶项目,包含从数据采集(数据爬虫),数据清洗,数据分析,数据的可视化展示以及数据结论等。适合想学习完整项目以及进阶数据分析师的同学们学习。
2023-01-29 10:34:17 883KB 爬虫 pandas matplotlib pyecharts
Python Data Science Handbook[美]Jake VanderPlas【高清版】,PDF
2023-01-22 21:53:45 18.44MB python 数据分析 数据科学 数据处理
1
大量图片可能其中有的图片损坏,不完整(truncated),使用python写的识别代码。 识别损坏truncated的图片,如果图片truncated可以删除 运行效率快。
2023-01-05 13:28:30 865B python 数据集 truncated 损坏
1
今天小编就为大家分享一篇关于使用Python抓取豆瓣影评数据的方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧
2022-12-30 14:38:45 160KB python 抓取 python 数据抓取
1
基于疫情环境下 运用python对全国的疫情情况进行数据分析并进行数据可视化
2022-12-29 20:20:48 2.28MB python 数据可视化 疫情分析
1
软件利润数据分析.rar软件利润数据分析.rar
2022-12-29 09:26:54 493KB python 数据分析