基于Python的招聘网站“前程无忧”信息爬取与数据分析——毕业设计
2021-10-13 13:04:29 32KB python 爬虫 数据分析 毕业设计
1
前程无忧-爬虫 爬取内容如下: ID: 124634218 职位: 软件测试讲师(有IT培训讲师经验) 待遇: 1.5-3万/月 公司: 广州市誉优品学教育科技有限公司 地点: 异地招聘 发布时间: 2020-10-12 09:50:44 详情: https://jobs.51job.com/guangzhou-yxq/124634218.html?s=01&t=0
2021-09-14 17:58:53 4KB 爬虫 前程无忧
1
电子商务案例分析之前程无忧
2021-09-08 14:04:32 715KB 电子商务
1
1.了解招聘网站的数据分析目标 2.学会针对不同的网站设计数据存储方式 3.掌握数据存储相关的库
2021-07-14 15:05:26 16KB 数据采集 scrapy
可以自选要爬取得页数,并将爬得的数据存放到本地表格中
2021-05-30 17:59:55 1KB python 爬虫
1
Scrapy前程无忧爬虫(可用)有问题可私信,保存到Mysql数据库
2021-05-25 09:06:45 19KB 爬虫 scrapy
翻页爬取网页版前程无忧的职位相关信息,每一个大概有50条岗位信息,首页展示的只有职位名,公司名,工作地点的部分信息,薪资以及发布日期。对于找工作来说,我希望看到的还有:     公司具体地址: 如果离家太远,上下班会比较花时间。     工作经验要求:判断自身经验是否达到要求     同一个公司职位发布条数:判断是否为虚假招聘,有很多虚假招聘的公司,大量发布类似招聘信息。   最后,我选择的爬取内容为为:岗位名,公司名,经验要求,公司详细地址,岗位薪资,招聘详细信息页面url。
2021-05-22 23:50:55 4KB 爬虫 前程无忧
1
三、 项目思路 1. 爬取一定时间内的(如最近1个月的)前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/),部分数据可以直接在搜索结果中获取,部分数据需要进入到岗位页面中获取。 2. 将爬取的数据保存为本地文本文件(若学生掌握数据库相关知识则可以保存在数据库中)。 3. 基于爬取的数据可以形成多种数据分析结果,例如:行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4. “职位信息”字段可使用jieba分词库进行分词,基于分词结果可生成“词云”等成果物。 5. 基于分词结果使用gensim模块训练词向量(涉及大量数据清洗工作)。 6. 基于每个“职位信息”文本的词向量构建基于“职位信息”的职位特征(建议使用均值即可)。 7. 将数据划分为训练集和测试集。使用训练集,基于scikit-learn中的朴素贝叶斯接口训练文本分类模型(建议使用多项式贝叶斯模型),使用测试集测试分类结果准确程度。
2019-12-21 21:50:27 5KB python
1