使用Apache-Spark进行文本分析:这是一个使用Apache Spark,pySpark,Pandas,Numpy的文本挖掘项目。
2021-07-12 14:27:54 708KB JupyterNotebook
1
论文中用到的部分基础文本分析技术(包括分词、去除停用词、word2vec、TF-IDF、词云图、名称提取、词性标注、LDA主题模型)
2021-07-08 15:02:47 6MB 分词 去除停用词 word2vec TF-IDF
诗歌在中国是一个极为重要且历史悠久的文学体裁。纵横千年的时间跨度、数量巨大的诗人群体、卷帙浩繁的诗歌文本都使得在传统的文本阅读方式下,中国诗歌的宏观把握变得极其不易。因此,随着计算机算力与计算模型的发展,越来越多的研究者将目光聚焦到了使用计算机对诗歌进行文本分析的研究领域,已有研究者对中国古诗进行了统计建模与宏观分析$^{[1]}$,但所用文本语料多为《全唐诗》《全宋词》等,以《诗经》为语料的文本分析研究,未之有也。因此需要有人在这个方面进行一些探索,本文便是一次尝试, 试图从另一个视角出发,更高效地处理《诗经》文本,并提供文本分析视角下对《诗经》的宏观刻画、描述与阐释。 本文从字频、词频、文本长度、文本方差、情感分析、提取主题词等各个维度,对《诗经》进行了以下文本分析: 首先从单字的角度,对诗经进行了字数、字频、各句长度方差等统计。 经过效果对比,选用北京大学的分词工具Pkuseg,对《诗经》进行分词处理。 在分词基础上统计词频且生成词云。 通过文本长度,文本方差来寻找风雅颂三部分之间的差异。 通过对《诗经》中篇目的情感分析,绘制出风雅颂各部分的情感变化曲线。 提取出文本中的主题词,并以此为基础构建出每篇作品的文本向量。 选定文本长度,文本方差,文本向量作为作品的三个特征,共同组成一个样本来表达一篇作品。 抽取样本,通过计算距离的方式对《诗经》中风雅颂三部分进行聚类,绘制出表达聚类效果的轮廓系数曲线。 以束皙的六首《补亡诗》与陶渊明的四首《时运》为例,计算二者作品与《诗经》的相似程度。
实现根据给定目标用户的微博UID,得到目标用户微博个人资料,保存到本地 依据目标用户微博UID抓取一定时期内目标用户所发(原创和转发)微博(包含图片、视频),保存到本地 依据所抓取目标用户微博内容、目标用户头像制作目标用户微博关键词词云 依据目标用户微博个人资料,制作目标用户个人电子名片 可视化目标用户日、月、年度微博点赞数、转发数 依据目标用户原创微博所@用户,可视化用户好友关系图 设置评论数阈值,爬取目标用户热门微博下热评 统计目标用户热门微博下热评次数较多用户,挖掘目标用户狂热粉丝
2021-07-08 15:02:41 8.25MB 爬虫 微博文本 可视化、 文本分析
python文本分析与处理,比较轻量级的资源文件。 python文本分析与处理,比较轻量级的资源文件。
2021-07-02 22:09:13 787KB python,文本
1
ROSTCM6+大连理工大学情感文本 做文本分析的有需要的自来取,。方便做旅游文本挖掘,在线评论的同学 !记得点赞啊
2021-06-26 03:47:35 15.72MB ROSTCM6+大连理工大学情感
1
石油价格预测情感分析LSTM,通过对石油标题的进行情感分析,使用SVM,ARIMA,GARCH,LSTM模型进行预测
2021-06-23 15:06:29 955KB 机器学习 深度学习 文本分析
1
股评师分析报告文本情感分析预测股价
2021-06-23 14:06:49 36.74MB 文本分析 情感分析
1
见习报告一份数据来自狗熊会。做了词云分析、回归分析。内置R语言代码。 版权声明:代码下载只能自己学习使用,切勿用于商业用途,违者必究。
2021-06-21 08:36:26 724KB R语言案例 词云图 文本分析 统计分析
1
股票市场预测 使用Stakced LSTM使用数值和文本分析进行的股市预测 股票数据集-https: 新闻数据集-https: persistentId doi: /DVN/
2021-06-20 17:36:21 357KB JupyterNotebook
1