爬取一定时间内的前程无忧岗位数据（例如青岛所有岗位的url为：https://jobs.51job.com/qingdao-snq/）

python

三、项目思路 1. 爬取一定时间内的（如最近1个月的）前程无忧岗位数据（例如青岛所有岗位的url为：https://jobs.51job.com/qingdao-snq/），部分数据可以直接在搜索结果中获取，部分数据需要进入到岗位页面中获取。 2. 将爬取的数据保存为本地文本文件（若学生掌握数据库相关知识则可以保存在数据库中）。 3. 基于爬取的数据可以形成多种数据分析结果，例如：行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4. “职位信息”字段可使用jieba分词库进行分词，基于分词结果可生成“词云”等成果物。 5. 基于分词结果使用gensim模块训练词向量（涉及大量数据清洗工作）。 6. 基于每个“职位信息”文本的词向量构建基于“职位信息”的职位特征（建议使用均值即可）。 7. 将数据划分为训练集和测试集。使用训练集，基于scikit-learn中的朴素贝叶斯接口训练文本分类模型（建议使用多项式贝叶斯模型），使用测试集测试分类结果准确程度。

文件下载

评论信息

其他资源

免责申明

【只为小站】的资源来自网友分享，仅供学习研究，请务必在下载后24小时内给予删除，不得用于其他任何用途，否则后果自负。基于互联网的特殊性，【只为小站】无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查；无论【只为小站】经营者是否已进行审查，用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场，基于网友分享，根据中国法律《信息网络传播权保护条例》第二十二条之规定，若资源存在侵权或相关问题请联系本站客服人员，zhiweidada#qq.com，请把#换成@，本站将给予最大的支持与配合，做到及时反馈和处理。关于更多版权及免责申明参见版权及免责申明

爬取一定时间内的前程无忧岗位数据（例如青岛所有岗位的url为：https://jobs.51job.com/qingdao-snq/）

文件下载

评论信息

其他资源

免责申明

个人信息

相关资源标签

热门下载

最新下载