精通正则表达式(第三版)简体中文版
1
自己写的一款小型的文件内容提取(查找)工具,支持对整个文件夹进行搜索提取。 工具支持多种过滤方式和其他一些选项。有不足的地方欢迎私我...
2022-11-14 20:58:06 44KB 文件 内容 文本提取 搜索
1
可用附件中的simg2img.exe来转化一下原始的system.img,然后再用其中的ext2Explorer来浏览提取system.img中的内容。 用法:1、将system.img改名为system.img.ext4。2、命令行cd到simg2img.exe目录下,执行命令“simg2img.exe system.img.ext4 system.img”。3、打开ext2Explorer.exe后open img->"system.img",在界面右边右键save提取内容。
2022-10-08 14:17:43 4.55MB Android Rom system.img 提取
1
将pdf按页拆分成多个小的pdf,并可将pdf转换成jpeg图片,同时具有OCR文字识别功能,可提取pdf和图片中的内容,内置图片识别区域设置。
2022-09-15 11:54:25 210.42MB pdf 图片 c# ocr
1
功能:用于多个文档提取指定段落。如数百个文档需要批量提取前三段,那么就按下面的形式输入: 默认不保留格式+插入文件名。 去除了无格式的勾选,则保留word格式提取。
2022-09-15 11:04:22 4.97MB Word内容提取器V1.0bet
1
delphi2010 及 delphi7 下 网页采集之网址提取,内容提取,图片提取,网页源码。 其中2010时,去掉一句注释即可。 用于网页分析的delphi源代码,可以提取网页中的连接、图片、内容等。 源代码非常简单,便于分析。
1
本文将和大家分享一些从互联网上爬取语料的经验。 0x1 工具准备 工欲善其事必先利其器,爬取语料的根基便是基于python。 我们基于python3进行开发,主要使用以下几个模块:requests、lxml、json。 简单介绍一个各模块的功能 01|requests requests是一个Python第三方库,处理URL资源特别方便。它的官方文档上写着大大口号:HTTP for Humans(为人类使用HTTP而生)。相比python自带的urllib使用体验,笔者认为requests的使用体验比urllib高了一个数量级。 我们简单的比较一下: urllib: import urlli
2022-03-14 12:25:05 223KB html代码 lxml python
1
按照压缩包中的使用示例编译即可 支持文件类型: A: pdf文件 B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm" C: wps文档 ".wps" D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm" E: wps表格 ".et" F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm" G: wps演示 ".dps" H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件” I: 富文本类型 ".rtf" J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml" K: 邮件格式文件 ".eml", 注:默认提取前5个附件 L: 部分思维导图格式文件 ".emmx", "xmind", "gmind" M:UTF8编码, Unicode编码, Ansi编码的文本文件 N: 压缩文件 ".zip", 注:默认提取前5个文件
2022-01-21 19:12:08 7.96MB linux GCC OFFICE/PDF文件内容提取
1
一个小工具,将电子版发票内容解析提取至Excel中,支持PDF版本、ODF版本,使用简单方便,快捷。
2021-12-15 13:02:03 15.32MB PDF提取 电子发票内容提取 ODF内容提取
1
刮擦 是一个框架,用于根据基于键值的配置文件创建Web爬虫和Web爬虫。 它提供了一个命令行界面来在给定的基于JSON的配置输入上运行脚本,以及一个Web界面来提供必要的输入。 Scrapple的主要目标是抽象设计Web内容提取器的过程。 重点放在要提取的内容上,而不是如何去做。 用户指定的配置文件包含选择器表达式(XPath表达式或CSS选择器)和要选择的属性。 Scrapple完成了运行此提取器的工作,而用户无需担心编写程序。 Scrapple也可以用于生成实现所需提取器的Python脚本。 安装 您可以使用以下方法安装Scrapple $ sudo apt-get install libxml2-dev libxslt-dev python-dev lib32z1-dev $ pip install scrapple 否则,您可以克隆此存储库并安装软件包。 $ git clo
2021-11-18 16:07:38 545KB python crawler tutorial extractor
1