搜索【文本爬虫】的结果

matlab最简单的代码-text_extraction:纯文本爬虫及文本规则提取

matlab最简单的代码 text_extraction 纯文本爬虫及文本规则提取需求爬去某个外文网站的某些文本文档，网站前缀为获得文本会把文本储存在本地文件夹source中，文件命名方式为文档middle_sample.csv中前六列的字符串用任意复合连接起来，在这里为用了符合“-”。对于每个爬下来的文档，按特定规则把文本中的部分字符串提取出来，并保存到本地文件夹result中，文档命名同上。提取规则为在原文本中最后一次出现特定关键句keyword之前的字符串中再找出第一次出现另一个关键句another keyword后面的所有字符串提取出来。假设在小写文本中第一次出现table的索引位置为 1000，那么在原文本中前 1000个字符里最后一次出现keyword的索引位置为800则把原文本索引为800之后的所有字符抽取出来，记为text2若所有table在小写文档中出现的索引都小于keyword在原文档第一次出现的索引则直接把原文档另存为为新文档。文档说明 /source/ 用于存放原始爬取下来的原始文本。由于前部分没有一个文本符合后面的文本提取规则，因此额外添加一个符合

2021-10-14 13:39:30 633KB 系统开源

1

携程网、猫途鹰、去哪儿旅游网站评论/游记文本爬虫

2021-09-03 13:11:42 6.12MB 文本爬虫

python实现两个菜谱网站的特定文本爬虫

本代码实现了两个菜谱网站上的菜谱爬虫，主要提取了菜的名字以及菜的主料，并将爬下来的数据分别保存在txt文本文档以及本地。

2019-12-21 20:52:45 4KB python 爬虫文本

1

个人信息

热门下载

最新下载

其他资源