这是一个基于深度学习的分词系统和语料项目。背景97.5%准确率的深度学习中文分词(字嵌入 Bi-LSTM CRF)构建安装好bazel代码构建工具,clone下来tensorflow项目代码,配置好(./configure)clone 本项目地址到tensorflow同级目录,切换到本项目代码目录,运行./configure编译后台服务bazel build //kcws/cc:seg_backend_api训练1. 关注“待字闺中”公众号 回复 kcws 获取语料下载地址2. 解压语料到一个目录3. 切换到代码目录,运行:pyton kcws/train/process_anno_file  chars_for_w2v.txt 使用word2vec 训练 chars_for_w2v (注意-binary 0),得到字嵌入结果vec.txt bazel build kcws/train:generate_training ./bazel-bin/kcws/train/generate_training vec.txt  all.txt python kcws/train/filter_sentence.py all.txt (得到train.txt , test.txt)4. 安装好tensorflow,切换到kcws代码目录,运行:python kcws/train/train_cws_lstm.py --word2vec_path vec.txt --train_data_path  --test_data_path test.txt --max_sentence_len 80 --learning_rate 0.001demohttp://45.32.100.248:9090/ 标签:kcws
2022-01-10 16:48:49 4.08MB 开源项目
1
文件包介绍 ICTCLAS3.0\PACKET │ Configure.xml:配置管理文件 │ ICTCLAS30_Manual.htm:使用手册 │ ReadMe.txt │ ├─API │ ├─C# :C#环境下的API │ │ Example.cs: 示例程序 │ │ ICTCLAS30.dll:ICTCLAS3.0动态链接库 │ │ ICTCLAS30.h: ICTCLAS3.0头文件 │ │ ICTCLAS30.lib: ICTCLAS3.0 Library │ │ ICTCLAS_C#_Demo.exe:示例程序生成的可执行文件 │ ├─JNI :Java下采用的API (Javac TestICTCLAS30.java编译;Java TestICTCLAS30) │ │ ICTCLAS30.dll: ICTCLAS3.0动态链接库 │ │ TestICTCLAS30.java: 示例程序 │ │ TestICTCLAS30.class: Java编译之后产生的class文件 │ │ Test.txt: 测试源文件 │ │ Test_result.txt:测试源文件生成的结果文件 │ ├─Linux_C :Linux下采用C的API │ │ Example.cpp: 示例程序 │ │ ICTCLAS30.h: ICTCLAS3.0头文件 │ │ libICTCLAS30.a: ICTCLAS3.0 Library │ │ Makefile:示例程序编译用的Makefile文件 │ │ test:示例程序生成的可执行文件 │ ├─Linux_JNI :Linux下Java采用的API │ │ TestICTCLAS30.java: 示例程序 │ │ libICTCLAS30.so: ICTCLAS3.0 Library │ │ │ └─Win_C:Windows下采用C的API │ Example.cpp: 示例程序 │ Example.exe:示例程序生成的可执行文件 │ ICTCLAS30.dll:ICTCLAS3.0动态链接库 │ ICTCLAS30.h: ICTCLAS3.0头文件 │ ICTCLAS30.lib: ICTCLAS3.0 Library │ ├─Data:ICTCLAS3.0的数据文件 │ BiWord.big │ charset.type │ CoreDict.pdat │ CoreDict.pos │ CoreDict.unig │ ICTCLAS.map │ ICTCLAS30.ctx │ ICTPOS.map │ nr.ctx │ nr.fsa │ nr.role │ ├─docs:文档集合,用户手册需要 │ ICTPOS3.0.doc:ICTCLAS采用的词性标注集的含义解释 │ ├─gif:图片,用户手册需要 │ └─Licenses:授权相关的文件夹 LicenseClient.exe:Windows环境下的用户注册程序 licenseClient_Linux:Linux环境下的用户注册程序 user.lic 用户License文件,表明用户身份,必不可少,不得更改。
2021-12-20 19:43:51 3.71MB ICTCLAS 中科院
1
日文分词系统mecab的中文讲解 mecab (http://mecab.sourceforge.net/) 是奈良先端科学技術大学院的工藤拓开发的日文分词系统, 该作者写过多个 machine learning 方面的软件包, 最有名的就是 CRF++, 目前该作者在 google@Japan 工作
2021-11-09 17:25:45 95KB 日文 分词 mecab CRF++
1
进行统计分词的系统,C++开发,高效,通用。
2021-11-07 22:07:51 21.47MB 统计分词
1
中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
2021-10-08 21:45:32 8.66MB 中科院 分词 人工智能 机器学习
1
软件介绍: 最新版本的NLPIR-ICTCLAS-master中科院分词系统软件包,在加上用户词典和去除停用词后,实际使用效果不错。要利用本分词系统具体实现方法可以网络上查找相关资料。支持MacOS、Linux、Windows系统。
2021-07-23 16:43:52 18.02MB 其他资源
1
NLPIR中科院分词系统JAVA项目,包含源代码(只有经典组件),相关的包。许可证会过期,请到官方仓库下载复制到Data目录下。
2021-06-03 17:02:34 16.56MB NLPIR 分词系统 JAVA
1
中科院汉语词法分析系统ICTCLAS安装包的安装包, 破解见我的其他资源
2021-05-22 11:10:29 9.68MB ICTCLAS 中科院,分词系统
1
SCWS的自述文件 $ Id $ SCWS简介 是Simple Chinese Word Segmentation的首字母缩写(即:简易中文分词系统)。这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分开的词。词是中文的最小语素单位,但在书写时并不像英语会在词之间用间隔分开,所以如何准确并快速分词一直是中文分词的攻关难点。 SCWS采用纯C语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的中文编码包括GBK , UTF-8等。几乎还提供了扩展模块,可在PHP中快速而方便地使用分词功能。 分词算法上没有太多创新,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试准确率在90 %〜95%之间,基本上能满足一些小型搜索引擎,关键字提取等场合用法。首次原型形版本发布于2005年底。 SC
2021-03-11 19:07:04 7.71MB 系统开源
1
中科院ICTCLAS2014分词系统下载包,文本分析工具,方便使用。
2020-01-03 11:39:43 73.73MB 文本分析工具
1