EDGAR-报告-文本分析
从EDGAR灌装中提取数据并进行文本分析。
在该项目中,对EDGAR灌装进行了文本数据提取和文本分析。 分析是在10k和10Q填充时完成的。 它是使用python执行的。
输入
输入文件包含与EDGAR不同的填充。 格式为.txt。 总共处理了152个文件。
提取与分析
A.进行基本清洁,并使用正则表达式提取目标切片。
目标部分是-
管理层的讨论与分析
关于市场风险的定量和定性披露
风险因素
B.进行了文本分析的不同部分,其中包括-
情绪分析
可读性分析
复杂字数
字数
情绪分析
使用基于词法的方法进行情感分析。
积极得分:如果在“积极字典”中找到每个单词,则为其分配+1值,然后将所有值相加即可得出该得分。
否定分数:如果在“否定字典”中找到每个单词,则为其分配-1的值,然后将所有值相加即可得出该分数。 我将分数乘以-1,以便分数为正数。
极性分数
1