Boyer-moore-string-search 在C中的实现。 该算法从右到左向后执行匹配,并通过迭代匹配,模式移位,匹配,移位等进行操作。移位量是通过应用以下两个规则来计算的: 不良品格规则 良好的后缀规则 实际的偏移量是其中最大的偏移量。 delta1 “错误字符”表 该表包含字母中每个字符的条目。 char的条目指定在字符串中找到char且与当前模式字符不匹配时,模式应右移的距离。 delta2 “ Good Suffix”表 该表包含模式中每个字符的条目。 pattern [j]的条目指定当pattern [j-1]不匹配字符串但pattern [j ..patlen-1]的后缀匹配时,当前字符串位置应向右移动多远。 用法 编译并执行测试: $ make $ ./bm 要删除编译的文件: $ make clean 样本输出
2021-10-06 21:57:06 108KB C
1
局部敏感哈希
2021-10-01 21:17:00 212KB 原始LSH
1
功能 连续获取一个或多个微博关键词搜索结果,并将结果写入文件(可选),数据库(可选)等所谓微博关键词搜索即:搜索正文中包含指定关键词的微博,可以指定搜索的时间范围。举个栗子,通常您可以搜索包含关键字“迪丽热巴”且发布日期在2020-03-01和2020-03-16之间的微博。搜索结果数量巨大,对于非常热门的关键字,在一天的指定时间范围内,可以获得1000万以上的搜索结果。注意这里的一天指的是时间筛选范围,具体多连续将这1000万微博下载到本地还要看获取的速度。1000万只是一天时间范围可获取的微博数量,如果想获取更多微博,可以增加时间范围,比如10天,最多可获得1000万X10 = 1亿条搜索结果,当然你也可以再加大时间范围。对于大多数关键字,微博一天产生的相关搜索结果应该低于1000万,因此可以说本程序可以获取指定关键字的全部或近似全部的搜索结果。 ,如微博正文,发布者等,详情见部分。支
2021-09-30 18:49:18 21KB Python
1
非科班出身程序员刷题 weibo-trending-hot-search 微博热搜榜,记录从 2020-4-27 日开始的微博热门搜索。每小时抓取一次数据,按天。 今日热门搜索 历史归档 License 本项目基于 的源码再发布。具体内容请查看 文件。
2021-09-30 16:28:54 1.85MB 系统开源
1
基于lire的图片搜索功能demo,代码简洁高效,免费开源。
2021-09-28 17:02:35 1.45MB lire java search image
1
lucene-sequence-diagram lucene搜索端uml时序图,lucene源码解析 图比较大,看不清,可以下载【sd-search.svg】后再用浏览器打开 使用starUML画图,可以下载【lucene.mdj】后打开,编辑 前提 只考虑最简单的查询,比如只对一个字段,用一个term去查,即TermQuery;然后索引也只有一个segment,简单的情况利于理解。 步骤 以下只描述了几个重要步骤,包含了加权,读取索引文件,收集,评分,分页这几个重要步骤。 1 加权;图中第【2】步,使用query生成weight;query就是查询参数,weight即对查询参数赋予权重,比如查询title包含"lucene"的文章,则首先对"lucene"这个term赋予权重 1.1 对"lucene"这个term赋予权重,需要先从索引文件中读取"title"这个字段的倒排表信息,即图中
1
Public Key Encryption with keyword Search 带关键字搜索的公钥加密paper的ppt
2021-09-26 23:13:33 583KB 加密、关键字
1
#google_search ##作用:利用python selenium模块来爬取谷歌搜索结果,在源代码的基础上做了些修改 ##相关文件说明: google-web-search.py​​:从Google抓取某个关键字的所有结果,以“ [debug]标题”;链接”显示,以一条链接一行的格式保存。 google-web-search-state-crawler.py:从Google抓取某个关键字的结果数,即提取类似“找到约1,130,000条结果”中的数字。#没试过 result-crawler.py:从Google返回的结果链接中抓取文本。注意只会处理网页和pdf文件。(pdf的下载处理貌似有点问题,可能需要再改一下。)#没试过 ##使用方法: #使用python2 + selenium + firefox profile 实现的随机user agent 模拟抓取Google搜索结
2021-09-23 11:20:15 4.14MB 系统开源
1
text_to_sql_search.cr:将文本搜索转换为SQL WHERE子句
2021-09-22 14:49:14 10KB search crystal sql text
1
微博趋势热搜 微博热搜榜,记录从2020-11-24日开始的微博热门搜索。每小时抓取一次数据,按天。 相关项目 今日热门搜索 历史归档 执照 的许可证使用MIT许可证发布。具体内容请查看文件。
2021-09-22 14:04:05 2.15MB TypeScript
1