上传者: 38701683
|
上传时间: 2021-10-14 13:39:30
|
文件大小: 633KB
|
文件类型: -
matlab最简单的代码
text_extraction
纯文本爬虫及文本规则提取
需求
爬去某个外文网站的某些文本文档,网站前缀为
获得文本会把文本储存在本地文件夹source中,文件命名方式为文档middle_sample.csv中前六列的字符串用任意复合连接起来,在这里为用了符合“-”。
对于每个爬下来的文档,按特定规则把文本中的部分字符串提取出来,并保存到本地文件夹result中,文档命名同上。
提取规则为在原文本中最后一次出现特定关键句keyword之前的字符串中再找出第一次出现另一个关键句another
keyword后面的所有字符串提取出来。假设在小写文本中第一次出现table的索引位置为
1000,那么在原文本中前
1000个字符里最后一次出现keyword的索引位置为800则把原文本索引为800之后的所有字符抽取出来,记为text2若所有table在小写文档中出现的索引都小于keyword在原文档第一次出现的索引则直接把原文档另存为为新文档。
文档说明
/source/
用于存放原始爬取下来的原始文本。由于前部分没有一个文本符合后面的文本提取规则,因此额外添加一个符合