EDGAR-报告-文本分析 从EDGAR灌装中提取数据并进行文本分析。 在该项目中,对EDGAR灌装进行了文本数据提取和文本分析。 分析是在10k和10Q填充时完成的。 它是使用python执行的。 输入 输入文件包含与EDGAR不同的填充。 格式为.txt。 总共处理了152个文件。 提取与分析 A.进行基本清洁,并使用正则表达式提取目标切片。 目标部分是- 管理层的讨论与分析 关于市场风险的定量和定性披露 风险因素 B.进行了文本分析的不同部分,其中包括- 情绪分析 可读性分析 复杂字数 字数 情绪分析 使用基于词法的方法进行情感分析。 积极得分:如果在“积极字典”中找到每个单词,则为其分配+1值,然后将所有值相加即可得出该得分。 否定分数:如果在“否定字典”中找到每个单词,则为其分配-1的值,然后将所有值相加即可得出该分数。 我将分数乘以-1,以便分数为正数。 极性分数
2021-09-18 23:12:09 84KB JupyterNotebook
1
基于TF-IDF算法,结合simhash算法,中文分词等一些技术要点概述。应用了开源hanlp中文处理包
2021-09-11 14:06:56 2.4MB 答辩 文本分析 simhash hanlp
1
自己设计的小项目,初始想法很简单,检验自己爬虫和nlp基本技能(分词、词向量(tokenize\onehot\tfidf\word2vec))和各类算法(朴素贝叶斯、svm、CNN、LSTM)掌握情况,进一步查漏补缺,提升工程能力和算法应用能力:) ** 第一部分:爬虫 ** 分析新浪网各类新闻网页结构,应用requests库,爬取并解析新浪各类新闻,包括汽车、教育、金融、娱乐、体育、科技共六类, 对于有“滚动”新闻链接的板块(如sport、tech、entertaimment),通过滚动新闻爬取数据:此类数据多为动态链接,需要异步加载,即自行分析json格式获取其中新闻url 对于没有“滚
2021-09-09 13:32:33 747KB 分类 文本分析 文本分类
1
文本分析内容主要介绍基于神经网络下的情感分析,主要以介绍为主
2021-09-05 23:12:19 673KB python 文本分析
1
基于Gensim的Python的文本分析方法:TFIDF LDA1、简介2、中文文本预处理3、Gensim文本挖掘3.1 TFIDF文本分析3.2 LDA文本分析4、总结 1、简介 文本数据的挖掘在当今互发达的联网环境下显得越来越具有价值,数据分析师Seth Grimes曾指出“80%的商业信息来自非结构化数据。本文以中文文本数据作为分析对象,针对中文文本存在的特征进行文本预处理,并调用Gensim工具包实现对文本的TFIDF建模已经LDA建模,从文本中抽取出的特征进行表征文本信息,可用于后续文本相似度、个性化推荐等研究。 2、中文文本预处理 首先,观察如下一条用户在网上所发表的评论: 不难
2021-09-01 15:19:46 104KB ens ns 文本分析
1
综合多种停用词表,进行合并去重处理,http://blog.csdn.net/kevinelstri/article/details/70227981
2021-08-22 19:50:58 21KB 停用词 文本分析
1
文本情感分析技术 文本情感分析技术 文本情感分析技术
2021-08-19 14:19:07 1.37MB 文本分析技术
1
第一章:引言(2学时) 第二章:文本特征提取技术(4学时) 第三章:文本检索技术(6学时) 第四章:文本自动分类技术(3学时) 第五章:文本自动聚类技术(3学时) 第六章:话题检测与追踪(3学时) 第七章:文本过滤技术(1.5学时) 第八章:关联分析技术(1.5学时) 第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用(1.5学时)
第一章:引言(2学时) 第二章:文本特征提取技术(4学时) 第三章:文本检索技术(6学时) 第四章:文本自动分类技术(3学时) 第五章:文本自动聚类技术(3学时) 第六章:话题检测与追踪(3学时) 第七章:文本过滤技术(1.5学时) 第八章:关联分析技术(1.5学时) 第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用(1.5学时)
第一章:引言(2学时) 第二章:文本特征提取技术(4学时) 第三章:文本检索技术(6学时) 第四章:文本自动分类技术(3学时) 第五章:文本自动聚类技术(3学时) 第六章:话题检测与追踪(3学时) 第七章:文本过滤技术(1.5学时) 第八章:关联分析技术(1.5学时) 第九章:文档自动摘要技术(3学时) 第十章:信息抽取(3学时) 第十一章:智能问答(QA)技术(1.5学时) 第十二章:Ontology(1.5学时) 第十三章:半结构化文本挖掘方法(1.5学时) 第十四章:文本挖掘工具与应用(1.5学时)