博客介绍https://blog.csdn.net/zhaohaowu/article/details/120889458 bag链接链接: https://pan.baidu.com/s/1uwIv9nLxm7FOPBVeKR4geQ 提取码: qfiq
2021-10-22 22:03:05 7.59MB cartographer
1
旅游英语口语期末考试话题.doc
2021-10-16 16:03:16 44KB 文档
话题作文等级训练.doc
2021-10-11 19:01:35 60KB 文档
话题作文关于-看见的作文600字(5篇).doc
2021-10-11 19:01:35 45KB 文档
话题作文精彩开头.doc
2021-10-11 19:01:34 87KB 文档
话题作文写作的三大技巧.doc
2021-10-11 19:01:34 51KB 文档
当今时代, 网络舆情传播速度快、影响力大, 而话题检测在网络舆情监管中有着不可替代的作用. 针对传统方法提取文本特征不完整和特征维度过高的问题, 本文提出了基于时间衰减因子的LDA&&Word2Vec文本表示模型, 将LDA模型的隐含主题特征和Word2Vec模型的语义特征进行加权融合, 并引入了时间衰减因子, 同时起到了降维和提高文本特征完整度的作用. 同时, 本文又提出了Single-Pass-SOM组合聚类模型, 该模型解决了SOM模型需要设定初始神经元的问题, 提高了话题聚类的精度. 实验结果表明, 本文提出的文本表示模型和文本聚类方法较传统方法拥有更好的话题检测效果.
1
zhihu说明文档 介绍 zhihu是一个知乎话题内容的爬虫,可以爬取知乎所有的话题相关的问答内容,爬虫框架使用scrapy,数据存储使用mongo。由于知乎话题的问答内容信息巨大(亿级数据量),这里只是爬取了话题广场的“阅读”话题下的所有子话题下的精华问题与回答的相关信息。 代码说明 运行环境 Windows 10 专业版 Python 3.5/Scrapy 1.5.0/MongoDB 3.4.7 依赖包 Requests Pymongo Faker(随机切换User-Agent) 其它 知乎话题广场有33个父话题,每个父话题有不同数量的子话题,每个子话题下又有很多的精华问题,每个精华问题下有不同数量的回答,如果想要完全爬取所有的问答,由于数据量太大,耗时太久。这里选择了“阅读”话题进行数据爬取。知乎的子话题、精华问答的内容都是采用动态加载的方法进行更新获取的,在分析了其动态加载链接后,
2021-10-04 01:11:00 876KB Python
1
功能 连续获取一个或多个微博关键词搜索结果,并将结果写入文件(可选),数据库(可选)等所谓微博关键词搜索即:搜索正文中包含指定关键词的微博,可以指定搜索的时间范围。举个栗子,通常您可以搜索包含关键字“迪丽热巴”且发布日期在2020-03-01和2020-03-16之间的微博。搜索结果数量巨大,对于非常热门的关键字,在一天的指定时间范围内,可以获得1000万以上的搜索结果。注意这里的一天指的是时间筛选范围,具体多连续将这1000万微博下载到本地还要看获取的速度。1000万只是一天时间范围可获取的微博数量,如果想获取更多微博,可以增加时间范围,比如10天,最多可获得1000万X10 = 1亿条搜索结果,当然你也可以再加大时间范围。对于大多数关键字,微博一天产生的相关搜索结果应该低于1000万,因此可以说本程序可以获取指定关键字的全部或近似全部的搜索结果。 ,如微博正文,发布者等,详情见部分。支
2021-09-30 18:49:18 21KB Python
1
新东方优能英语中考写作话题复习资料.docx
2021-09-15 09:57:35 241KB