薪资预测
根据职位描述预测薪水
定义问题
职位的薪资和两者之间的差异取决于多种因素,包括技能,经验和职称本身。 在给定可用的数据集的情况下,我们希望估算工作薪资以了解推动薪资的关键特征,并部署模型解决方案来预测薪资以基于这些特征衡量合理的薪资。
方法
1.数据加载
'train_features':每个工作ID的每个功能的训练数据集:工作名称,公司,学位,专业,行业,经验的年限以及与大都市的距离(英里)。
'train_salaries':每个工作ID的薪水(目标变量)训练数据集
'test_features':等效于功能训练集的测试数据集。
2.数据清理
除了查找每个数据集的数据类型和大小外,数据清理还涉及发现和处理丢失的数据,重复项,无效数据(例如,工资<= 0)和可疑的异常值。 较低的异常值是低于25个百分点的异常值-1.5 *四分位间距; 以及较高的离群值在75个百分位数-1.5
2021-07-21 16:50:42
213KB
1