AG新闻分类使用机器学习
新闻分类数据集数据源: :
客观的
新闻分类数据集由“世界”,“体育”,“商业”和“科学”类别的新闻文章组成
给定标题和描述,我们必须确定它属于哪个新闻文章类别。
机器学习问题的类型:
我们必须根据给定的信息预测新闻报道,因此它是多类分类问题
基本概述
数据形状:Train.csv + Test.csv = 120000 + 7600 = 127600行。
Data.columns:类索引,标题,描述
Data.info():独立:标题,描述--->对象,从属:类标签-> Int64
机器学习问题的类型
绩效指标
由于这是多类分类问题,因此我们将使用:
1:多类混淆矩阵
2:精确,调出,F1-Score
3:准确性得分,错误得分
解决新闻分类问题的步骤:
第1部分
1:加载数据集----> .csv格式
2:执行探索性数据分析:
a] Check
1