AC多模式匹配算法 特点:应用有限自动机巧妙地将字符比较转化为了状态转移。此算法有两个特点:一是扫描文本时完全不需要回溯,二是时间复杂度为O(n)与关键字的数目和长度无关,但所需时间和文本长度以及所有关键字的总长度成正比。 算法思想:用多模式串建立一个确定性的树形有限状态机,以主串作为该有限状态机的输入,使状态机进行状态的转换,当到达某些特定的状态时,说明发生模式匹配。AC 多模式匹配算法的实现可分预处理和搜索查找两个阶段。在预处理阶段根据待匹配的模式串组生成有限状态机;搜索查找阶段状态机根据输入的文本串进行状态跳转,当到达某一状态时,该状态有匹配的模式串,则匹配成功。AC 状态机包括goto、fail 和output 3 个函数。 实现步骤:1. 构造字典树;2. 搜索路径的确定(即构造失败指针);3. 模式匹配过程。
2024-08-29 16:48:11 47KB AhoCorasick
1
ahocorasick-python ac自动机python的实现,可用于python2 python3等主流python发行版,对标准的ac自动机算法进行了完善 优化(主要是改进了结果的准确性)。 注意:为了保证结果的准确性,请安装使用最新版(0.0.9)。 1.如何安装 pip 安装(推荐) pip install ahocorasick-python 源码安装 git clone https://github.com/xizhicode/ahocorasick-python.git cd ahocorasick-python && python setup.py install 2.如何使用 注: 此处python3为例,python2也是类似的结果 简单检索 import ahocorasick # 导入包 tree = ahocorasick.AhoCorasick
2021-09-15 19:56:59 13KB Python
1