提取PDF关键字,写入Excel
摘要:这篇文章介绍如何从PDF文件中提取关键字,然后写入到Excel中。首先程序把PDF解析为txt文件,然后程序从指定的Excel文件中加载关键字,再在txt中去寻找,最后将找到的关键字个数写入Excel
功能演示
需求描述:在我的keywordsExtractor 目录下有一些文件夹,文件夹内是pdf文件,我需要把这些pdf文件跟目标股票进行对比,如果该PDF属于目标股票,那么加载,否则不加载。然后把PDF中的一些特定关键词出现次数提取到Excel中,如下示例:
关键词从D列开始,任意添加。其中A1,B1,C1内容可以更改。
然后运行程序,得到的结果示例如下:
这里的年份是PDF所在文件夹的名称,你可以自己修改,股票代码是PDF文件名称的前6个字符。
实现过程
STEP 0: 加载需要的包
# -*- coding: UTF-8 -*-
"""
1.加
2021-10-21 00:12:22
22.51MB
Python
1