SCWS简介】 SCWS,全称Simple Chinese Word Segmentation,是一个简易中文分词系统,由hightman开发,并以BSD许可协议开源发布。它采用纯C语言编写,不依赖任何外部库,支持GBK、UTF-8等多种中文编码。SCWS的核心功能是将连续的中文文本切分成有意义的词语,这是中文处理中的基础步骤。中文分词的挑战在于中文词汇间没有明显的分隔符,而SCWS通过内置的词频词典和一些特殊规则(如专有名词、人名、地名、数字年代识别)来实现基本的分词功能,经过测试,其准确率在90%~95%之间,适用于小型搜索引擎、关键词提取等场景。 【SCWS安装】 要安装SCWS,首先需要下载最新版本的源代码,如scws-1.2.1.tar.bz2,然后解压并进入解压后的目录。使用`./configure`配置编译选项,例如设置安装路径为`/usr/local/scws`,接着运行`make`和`make install`完成编译安装。 【SCWS的PHP扩展安装】 为了在PHP中使用SCWS,需要安装对应的PHP扩展。进入`phpext`目录,运行`phpize`初始化环境,然后执行`./configure`指定PHP配置文件的位置,再次运行`make`和`make install`完成编译安装。在PHP的配置文件(如`php.ini`)中添加SCWS扩展的配置项,指定扩展名、字符集、词典路径等。 【词库安装】 词库是SCWS进行分词的关键,可以从官方网站下载词典文件,如scws-dict-chs-utf8.tar.bz2,解压后将其放置到SCWS的词典路径下,例如`/usr/local/scws/etc/`,并更改权限以确保PHP能够访问。 【PHP实例代码】 在PHP中使用SCWS,需要实例化分词插件核心类`scws_new()`,设置分词时的字符集、词典路径和规则文件路径。通过`set_ignore()`、`set_multi()`和`set_duality()`方法调整分词策略,然后使用`send_text()`发送待分词的文本,最后通过`get_result()`或`get_tops()`获取分词结果。`get_result()`返回一个包含词、词频、位置和词性的数组,方便进一步处理。 【在线API使用】 除了本地安装和使用,SCWS还提供了在线API服务,开发者可以通过HTTP请求直接调用分词服务,这样可以省去本地安装和维护的步骤,特别适合那些对服务器资源有限制或希望快速集成分词功能的项目。 SCWS是一个实用的开源中文分词工具,适用于PHP环境,通过简单的安装和配置即可在项目中实现中文文本的分词处理,提高文本分析和处理的效率。结合其提供的PHP扩展和在线API,开发者可以灵活选择适合自己的集成方式,满足各种应用场景的需求。
2024-07-16 19:06:28 59KB 中文分词
1
主要介绍了PHP+MySQL+sphinx+scws实现全文检索功能,详细分析了sphinx、scws的下载安装、配置、数据库创建及全文检索功能的相关实现技巧,需要的朋友可以参考下
2022-11-17 00:21:56 140KB PHP MySQL sphinx scws
1
这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。本系统支持的汉字编码包括 GBK、UTF-8在线分词演示:G B K: http://www.hightman.cn/demo/scws/v4.php UTF-8: http://www.hightman.cn/demo/scws/v48.php 详情可参看:http://www.hightman.cn/?scws
2022-03-23 15:22:35 5.55MB 分词 简体中文 辞典
1
SCWS的自述文件 $ Id $ SCWS简介 是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模块,可在PHP中快速而方便地使用分词功能。 分词算法上没有太多创新,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试准确率在90 %〜95%之间,基本上能满足一些小型搜索引擎,关键字提取等场合用法。首次原型形版本发布于2005年底。 SC
2021-03-11 19:07:04 7.71MB 系统开源
1
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块, 可在 PHP 中快速而方便地使用分词功能。
1
简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
2020-02-01 03:08:53 5.83MB scws php中文分词 中文分词
1