在这个项目中,我们将应用自然语言处理来了解有关比特币和以太坊的最新新闻中的情绪。 我们还将应用基本的自然语言处理技术,以更好地理解与硬币价格有关的其他因素,例如文章中提到的常用单词和短语以及组织和实体。 我们将完成情感分析,自然语言处理和命名实体识别。
情绪分析
我们将使用News API,获取关于比特币和以太坊的最新新闻,并为每个硬币创建一个情感分数的DataFrame。
使用描述性统计信息来回答以下问题:
哪种硬币的平均阳性得分最高?
哪枚硬币的负分最高?
哪枚硬币的正面得分最高?
自然语言处理
在本节中,我们将使用NLTK和Python将每个硬币的文本标记化。
小写每个单词
删除标点符号
删除停用词
接下来,查看每个硬币的ngram和单词频率。
使用NLTK生成N = 2的ngram。
列出每个硬币的前10个字。
最后,为每个硬币生成词云,以总结每个硬币的新闻。
命名
1