matlab最简单的代码 text_extraction 纯文本爬虫及文本规则提取 需求 爬去某个外文网站的某些文本文档,网站前缀为 获得文本会把文本储存在本地文件夹source中,文件命名方式为文档middle_sample.csv中前六列的字符串用任意复合连接起来,在这里为用了符合“-”。 对于每个爬下来的文档,按特定规则把文本中的部分字符串提取出来,并保存到本地文件夹result中,文档命名同上。 提取规则为在原文本中最后一次出现特定关键句keyword之前的字符串中再找出第一次出现另一个关键句another keyword后面的所有字符串提取出来。假设在小写文本中第一次出现table的索引位置为 1000,那么在原文本中前 1000个字符里最后一次出现keyword的索引位置为800则把原文本索引为800之后的所有字符抽取出来,记为text2若所有table在小写文档中出现的索引都小于keyword在原文档第一次出现的索引则直接把原文档另存为为新文档。 文档说明 /source/ 用于存放原始爬取下来的原始文本。由于前部分没有一个文本符合后面的文本提取规则,因此额外添加一个符合
2021-10-14 13:39:30 633KB 系统开源
1
携程网、猫途鹰、去哪儿旅游网站评论/游记文本爬虫
2021-09-03 13:11:42 6.12MB 文本爬虫
本代码实现了两个菜谱网站上的菜谱爬虫,主要提取了菜的名字以及菜的主料,并将爬下来的数据分别保存在txt文本文档以及本地。
2019-12-21 20:52:45 4KB python 爬虫 文本
1