用于github 被封而又要用到pkuseg pkuseg-python-master.zip
2022-04-26 17:34:09 1.63MB 分词
1
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。 从 3.0 版本开始,IK 发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认优化实现。 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。
2022-04-21 17:29:03 3.22MB IK Analyzer 中文分词
1
python3.6实现中文语料文本的BSBI算法(倒排索引)索引程序实现。包括中文文本分词,停用词表。
1
Seg_CRF CRF中文分词实验 Windows x64 python 2.7.9 CRF++-0.58 评测采用 icwb2-data 中的评测脚本 ref:
2022-04-20 18:52:23 1.77MB Python
1
disp('展示BP的训练集分类') bp_train_accuracy=sum(J==J1)/length(J) figure stem(J,'bo'); grid on hold on plot(J1,'r*'); legend('网络训练输出','真实标签') title('BP神经网络训练集') xlabel('样本数') ylabel('分类标签') hold off %% 测试集准确率 tn_bp_sim = sim(net_bp,P_test);%测试 [I J]=max(tn_bp_sim',[],2); [I1 J1]=max(T_test',[],2); disp('展示BP的测试集分类') bp_test_accuracy=sum(J==J1)/length(J) figure stem(J,'bo'); grid on hold on plot(J1,'r*'); legend('测试输出','真实标签') title('BP神经网络测试集') xlabel('样本数') ylabel('分类标签') hold off
2022-04-20 09:06:52 3.91MB 分类 自然语言处理 人工智能 数据挖掘
使用CRF随机条件场进行中文文本分词,基于python已调通,带数据集
2022-04-19 23:14:11 16.32MB CRF条件随机场 中文分词 自然语言处理
1
人工智能深度学习,中文分词代码,准确无误。rnn-tutorial-gru-lstm-master分词
2022-04-19 20:04:37 31.19MB gru-lstm 中文分词
1
一种改进的双向最大匹配分词算法,池万泱,孟祥武,中文自然语言处理技术构成中,最重要,也是最基本的技术就是中文分词。本文在深入研究相关文献后,提出一种改进的双向最大匹配分
2022-04-17 22:03:41 278KB 计算机应用
1
食物相关方面词库字典,自然语言处理,分词
2022-04-17 21:47:39 141KB 字典
1
本章为该课程的其中一个章节 【全部课程列表】 01-C#基础(共40页) 02-搜索引擎基础(共15页) 03-网络爬虫(共27页) 04-正则表达式(共13页) 05-HtmlAgilityPack(共17页) 06-正文提取(共12页) 07-提取文件(共14页) 08-文本排重(共28页) 09-提取关键词(共16页) 10-拼写检查(共41页) 11-文本摘要(共15页) 12-文本分类(共12页) 13-文本聚类(共21页) 14-信息提取(共14页) 15-中文分词(共10页) 16-查词典(共37页) 17-逆向分词(共13页) 18-有限状态机(共31页) 19-切分词图(共16页) 20-概率分词(共26页) 21-n元分词(共38页) 22-词性标注(共34页) 23-Lucene简介(共23页) 24-索引原理(共22页) 25-查询原理(共13页) 26-分析器(共15页) 27-概念搜索(共13页) 28-相关度打分(共12页) 29-搜索界面(共12页) 30-AJAX搜索界面(共25页) 31-Solr(共29页) 32-SolrNet(共10页) 插图
2022-04-12 09:08:00 2.23MB c# 搜索引擎 中文分词 词性标注