关于飞快移动 Whoosh是使用纯Python实现的快速,功能强大的全文索引和搜索库。 程序员可以使用它轻松地将搜索功能添加到他们的应用程序和网站。 Whoosh工作原理的每个部分都可以扩展或替换,以完全满足您的需求。 Whoosh的一些功能包括: Pythonic API。 纯Python。 无需编译或二进制包,没有神秘的崩溃。 野外索引和搜索。 快速索引和检索-比我所知道的任何其他纯Python得分式全文本搜索解决方案都要快。 可插拔评分算法(包括BM25F),文本分析,存储,发布格式等。 强大的查询语言。 纯Python拼写检查器(据我所知,只有一个)。 在以下情况下,飞快移动可能会很有用: 任何需要使用纯Python解决方案的地方都可以避免构建/编译本机库(或强制用户构建/编译本机库)。 作为研究平台(至少对于那些发现Python比Java更易于阅读和使用的程
2021-10-23 11:00:07 1.06MB Python
1
《python语言程序设计基础》中所要求的课后作业,但是仿佛在书里并没有同步配置资源,为了方便大家的学习生活计划,我决定将它分享予大家。今天也要加油鸭!
2021-10-19 22:16:58 1.69MB 嵩天书 红楼梦 jieba
1
通过jieba分词工具,载入自定义词典和停用词库,来获取词频高的关键词,本脚本只获取top10的关键词; 其中,停用词库是结合了目前很多常见停用库的合并;
2021-10-07 10:44:11 3KB jieba 分词
1
“结巴”中文分词:做最好的 Python 中文分词组件
中文分词工具jieba 。相比其他分词工具而言,jieba不仅只有分词这一功能,它还提供了许多分词以外的算法,支持Python、R、C++等多种编程语言的实现,使用简单,对于新手而言是一个较好的入门分词工具
2021-09-20 14:45:20 37.24MB 自然语言处理
1
实现公司名及公司地址的模糊匹配,也可以迁移到房产信息、电话号码之类的字段上。本来的应用场景是反团伙欺诈以及失联客户的修复,大概的意思就是说多个相同公司的同事都在我公司借贷的欺诈可能性要高于其他客户,以及造假的房产信息和电话号码可能不完全相同,但有一定的相似性,我们需要把这些客户找出来,但是又不能用精确匹配。
2021-09-07 10:02:35 3.14MB jieba
1
python分析taptap游戏评价,生成词云
2021-09-05 18:09:45 824KB 资源达人分享 requests jieba 源码类
最近适用了这五款分词工具,光是下载安装就踩了很多坑,特别是pyltp和hanlp,装到我怀疑人生。 以下是整理的安装过程和注意事项。 希望能给大家提供些帮助。 目录一、Nlpir第一步:下载工具。第二步:下载后,解压,按如下顺序进入目录。第三步:打开工具,可以看到有精准采集、文档转换、批量分词等功能。具体使用方法可参考右下角“使用手册”。二、 Pyltp第一步:下载安装Pyltp。第二步:下载模型。第三步:使用基本组件。三、 Jieba第一步:pip安装,指令为第二步:基于python中jieba包的中文分词中详细使用。四、 Hanlp第一步:下载Hanlp 。第二步:在eclipse里导入项
2021-08-08 21:12:59 781KB hanlp ie jieba
1
使用python的jieba库实现《哈姆雷特》常用词频、《三国演义》前十出场人物
2021-08-06 22:24:38 1.86MB python
1
python使用jieba对txt文本进行分词统计,并将结果输出到控制台。 程序包含示例+注释说明。
2021-08-04 22:02:18 46KB jieaba 分词统计
1