作者:詹姆斯·狄更斯(James Dickens),锡7118781
最终项目-CSI 5155:机器学习,Herna Viktor博士教授的课程。
这是我针对数据的二进制分类的机器学习任务的代码,该代码可从,该数据由从1994年提取的加权普查数据组成1995年由美国人口普查局进行的当前人口调查。 目标是评估五个常用的机器学习模型(包括半监督神经网络!),以对给定实例每年赚取超过50K进行分类,也就是二进制分类任务。
我的代码组织如下:
Preprocess.py接收初始的census-income.data文件和census-income.test文件,然后
打印有关数据及其属性的信息
从训练数据中删除重复项
处理实例重量冲突
将缺失的值替换为其默认值
将结果写入文件:“ census-income.data/training_data_preprocess1”,“ census
2023-01-18 15:41:28
31.09MB
Python
1