本项目主要实现了首先通过python编写的爬虫程序,对今日头条的新闻进行爬取,爬取的内容相对丰富,内容,图片都有爬取,另外,将获取到的新闻进行了实体分析,用textrank图算法计算了关联程度,得到了每篇新闻的一个关键词,高频词,实体对象的力引导图,同时结合大数据流处理的storm技术,在进行实体分析的同时进行了新闻数据的存储,即新闻数据的持久化,整个项目比较有学习价值,欢迎大家下载
2021-05-10 07:29:45 27.22MB python ltp实体分析 storm流处理 kafka
1