phpanalysis PHP分词系统V2.51版
2022-02-23 20:02:56 2.66MB php PHP中文分词 中文分词
1
考生在填报高考志愿时, 针对复杂繁多的各类高校信息数据, 传统的搜索引擎无法根据考生需要的实际信息和搜索结果进行匹配, 考生还需要额外消耗一定精力去筛选数据, 这无疑增加了考生的时间成本. 为此本文提出了基于高考领域知识图谱, 使用中文分词模型和朴素贝叶斯分类算法, 设计并开发了针对高考学业规划的智能问答系统. 与传统的搜索引擎不同的是, 基于人工智能的问答系统能够对考生所关注的问题和搜索结果进行精确匹配, 减少考生重复搜索和筛选数据的次数. 测试结果表明, 本系统可以对高考学业规划中所涉及的大多数问题进行相对准确的针对性回答.
1
把需要分词去停用词的文件放入allData文件夹下的originalData文件夹,依次运行1.cutWord.py和2removeStopWord.py之后,allData文件夹下的afterRemoveStopWordData文件夹就是最终分词且去停用词之后的文件
2022-02-14 16:04:23 9.28MB python 中文分词 开发语言 后端
1
中文分词字典
2022-02-12 14:21:20 495KB 字典 分词 中文
1
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
2022-02-12 14:10:38 50.2MB 中文分词 microsoft 自然语言处理 nlp
1
利用CRF++进行中文分词 维护者: 维新公众号:Python爬虫与算法 语料 人民日报中文分词语料 微软中文分词语料 训练集与测试集的比例为9:1,具体的改写脚本可以参考read_segment_corpus.py。 CRF模型 工具采用CRF++,训练命令如下: crf_learn -f 3 -c 4.0 template train.data model -t 模型评估结果 accuary: 0.96405717503858 p: 0.9184067155248071 r: 0.9206969935013926 f1: 0.9195504284452864 classification report: precision recall f1-score support Char 0.92 0.92
2022-02-10 16:18:17 8.27MB 附件源码 文章源码
1
中文分词程序Python版,算法是正向最大匹配 效果不错,亲自编写的
2022-01-28 15:48:10 3.24MB 中文分词 python 最大匹配
1
一个方便的php 中文分词库,可以方便的在进行中文模糊查询的时候使用。
2022-01-20 11:38:18 7.76MB php 中文 分词
1
中文分词/宋词生成/n-gram模型/全部java源代码,课程设计报告。全部源代码,详细注释。
2022-01-18 21:56:39 4.34MB n-gram FMM BMM 分词
自然语言理解实验报告,中文分词系统,词频统计,最大正相匹配
2022-01-18 21:03:30 267KB 自然语言理解 中文分词
1