灾难鸣叫检测器
项目概况
该项目是Kaggle挑战。
在紧急时刻,Twitter已成为重要的沟通渠道。 由于Twitter提供近乎实时的信息,因此第一响应者越来越多地对其进行监视。 但是他们可能会面临困难,很难清楚地确定一个人是否正在宣布灾难。 使用包含隐喻的许多推文,这项任务可能很棘手。
我基于监督学习构建了一个解决方案,可以识别一条推文是否与真正的灾难有关。 这可以帮助紧急服务自动监视Twitter,以更好地检测灾难。
Github资料库
该存储库包含3个脚本:
eda.y :对“关键字”和“位置”特征的探索性分析,以分析与灾难发生的可能关联。
preprocessing.py :一系列推文清洁和预处理
modelling.py :推文矢量化(TF-IDF)和二进制分类模型(多项朴素贝叶斯)
探索性数据分析
我想弄清楚我们是否可以利用模型中的“位置”和“关键字”列。
关键字分
1