【SCWS简介】 SCWS,全称Simple Chinese Word Segmentation,是一个简易中文分词系统,由hightman开发,并以BSD许可协议开源发布。它采用纯C语言编写,不依赖任何外部库,支持GBK、UTF-8等多种中文编码。SCWS的核心功能是将连续的中文文本切分成有意义的词语,这是中文处理中的基础步骤。中文分词的挑战在于中文词汇间没有明显的分隔符,而SCWS通过内置的词频词典和一些特殊规则(如专有名词、人名、地名、数字年代识别)来实现基本的分词功能,经过测试,其准确率在90%~95%之间,适用于小型搜索引擎、关键词提取等场景。 【SCWS安装】 要安装SCWS,首先需要下载最新版本的源代码,如scws-1.2.1.tar.bz2,然后解压并进入解压后的目录。使用`./configure`配置编译选项,例如设置安装路径为`/usr/local/scws`,接着运行`make`和`make install`完成编译安装。 【SCWS的PHP扩展安装】 为了在PHP中使用SCWS,需要安装对应的PHP扩展。进入`phpext`目录,运行`phpize`初始化环境,然后执行`./configure`指定PHP配置文件的位置,再次运行`make`和`make install`完成编译安装。在PHP的配置文件(如`php.ini`)中添加SCWS扩展的配置项,指定扩展名、字符集、词典路径等。 【词库安装】 词库是SCWS进行分词的关键,可以从官方网站下载词典文件,如scws-dict-chs-utf8.tar.bz2,解压后将其放置到SCWS的词典路径下,例如`/usr/local/scws/etc/`,并更改权限以确保PHP能够访问。 【PHP实例代码】 在PHP中使用SCWS,需要实例化分词插件核心类`scws_new()`,设置分词时的字符集、词典路径和规则文件路径。通过`set_ignore()`、`set_multi()`和`set_duality()`方法调整分词策略,然后使用`send_text()`发送待分词的文本,最后通过`get_result()`或`get_tops()`获取分词结果。`get_result()`返回一个包含词、词频、位置和词性的数组,方便进一步处理。 【在线API使用】 除了本地安装和使用,SCWS还提供了在线API服务,开发者可以通过HTTP请求直接调用分词服务,这样可以省去本地安装和维护的步骤,特别适合那些对服务器资源有限制或希望快速集成分词功能的项目。 SCWS是一个实用的开源中文分词工具,适用于PHP环境,通过简单的安装和配置即可在项目中实现中文文本的分词处理,提高文本分析和处理的效率。结合其提供的PHP扩展和在线API,开发者可以灵活选择适合自己的集成方式,满足各种应用场景的需求。
2024-07-16 19:06:28 59KB 中文分词
1
采取基于N-最短路径方法的中文词语粗分模型对中文文本进行粗切分,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现中国人名的识别
2022-09-15 18:24:19 345KB 中文分词 中国人名 N最短路径
1
基于互信息改进算法的新词发现对中文分词系统改进
2022-05-02 14:06:31 16KB 文档资料
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,这是该软件的2015版本。
2022-04-08 14:16:41 49.06MB ICTCLAS2015
1
文件包介绍 ICTCLAS3.0\PACKET │ Configure.xml:配置管理文件 │ ICTCLAS30_Manual.htm:使用手册 │ ReadMe.txt │ ├─API │ ├─C# :C#环境下的API │ │ Example.cs: 示例程序 │ │ ICTCLAS30.dll:ICTCLAS3.0动态链接库 │ │ ICTCLAS30.h: ICTCLAS3.0头文件 │ │ ICTCLAS30.lib: ICTCLAS3.0 Library │ │ ICTCLAS_C#_Demo.exe:示例程序生成的可执行文件 │ ├─JNI :Java下采用的API (Javac TestICTCLAS30.java编译;Java TestICTCLAS30) │ │ ICTCLAS30.dll: ICTCLAS3.0动态链接库 │ │ TestICTCLAS30.java: 示例程序 │ │ TestICTCLAS30.class: Java编译之后产生的class文件 │ │ Test.txt: 测试源文件 │ │ Test_result.txt:测试源文件生成的结果文件 │ ├─Linux_C :Linux下采用C的API │ │ Example.cpp: 示例程序 │ │ ICTCLAS30.h: ICTCLAS3.0头文件 │ │ libICTCLAS30.a: ICTCLAS3.0 Library │ │ Makefile:示例程序编译用的Makefile文件 │ │ test:示例程序生成的可执行文件 │ ├─Linux_JNI :Linux下Java采用的API │ │ TestICTCLAS30.java: 示例程序 │ │ libICTCLAS30.so: ICTCLAS3.0 Library │ │ │ └─Win_C:Windows下采用C的API │ Example.cpp: 示例程序 │ Example.exe:示例程序生成的可执行文件 │ ICTCLAS30.dll:ICTCLAS3.0动态链接库 │ ICTCLAS30.h: ICTCLAS3.0头文件 │ ICTCLAS30.lib: ICTCLAS3.0 Library │ ├─Data:ICTCLAS3.0的数据文件 │ BiWord.big │ charset.type │ CoreDict.pdat │ CoreDict.pos │ CoreDict.unig │ ICTCLAS.map │ ICTCLAS30.ctx │ ICTPOS.map │ nr.ctx │ nr.fsa │ nr.role │ ├─docs:文档集合,用户手册需要 │ ICTPOS3.0.doc:ICTCLAS采用的词性标注集的含义解释 │ ├─gif:图片,用户手册需要 │ └─Licenses:授权相关的文件夹 LicenseClient.exe:Windows环境下的用户注册程序 licenseClient_Linux:Linux环境下的用户注册程序 user.lic 用户License文件,表明用户身份,必不可少,不得更改。
2021-12-20 19:43:51 3.71MB ICTCLAS 中科院
1
SCWS的自述文件 $ Id $ SCWS简介 是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模块,可在PHP中快速而方便地使用分词功能。 分词算法上没有太多创新,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试准确率在90 %〜95%之间,基本上能满足一些小型搜索引擎,关键字提取等场合用法。首次原型形版本发布于2005年底。 SC
2021-03-11 19:07:04 7.71MB 系统开源
1
基于C++编写的中文分词程序,内有完整的代码,且有小词库,解压即可运行
2020-01-03 11:19:05 28KB 分词
1
基于字的用感知机实现的中文分词系统。完全训练后对微软的测试集精度可以达到96%多。我上传的版本是完整的代码(训练和分词),大家自己用附带的微软训练数据训练就可以了,只有一个文件。 代码总的来说写的还是很清楚的,方便自己也方便别人阅读。欢迎大家共讨论,xiatian@ict.ac.cn。
2019-12-21 21:11:02 4.92MB python 分词 感知机
1
hmm实现的中文分词系统; 一个简单的宋词生成系统; 包括一个简单网页界面;
1
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。
2019-12-21 18:56:33 49.06MB ICTCLAS2015
1