本章为该课程的其中一个章节 【全部课程列表】 01-C#基础(共40页) 02-搜索引擎基础(共15页) 03-网络爬虫(共27页) 04-正则表达式(共13页) 05-HtmlAgilityPack(共17页) 06-正文提取(共12页) 07-提取文件(共14页) 08-文本排重(共28页) 09-提取关键词(共16页) 10-拼写检查(共41页) 11-文本摘要(共15页) 12-文本分类(共12页) 13-文本聚类(共21页) 14-信息提取(共14页) 15-中文分词(共10页) 16-查词典(共37页) 17-逆向分词(共13页) 18-有限状态机(共31页) 19-切分词图(共16页) 20-概率分词(共26页) 21-n元分词(共38页) 22-词性标注(共34页) 23-Lucene简介(共23页) 24-索引原理(共22页) 25-查询原理(共13页) 26-分析器(共15页) 27-概念搜索(共13页) 28-相关度打分(共12页) 29-搜索界面(共12页) 30-AJAX搜索界面(共25页) 31-Solr(共29页) 32-SolrNet(共10页) 插图
2022-04-12 09:08:00 2.23MB c# 搜索引擎 中文分词 词性标注
nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键字提取,文本分类;由于要打包成exe的关系,我将原本的项目的多一个文件的集成到一个python文件(合并文件)里,只保留了使用该系统所需要的函数,方便打包,通俗地讲就是,生成生成词向量过程,装袋过程,模型训练过程的,以及一些中间步骤的程序代码,这些有些涉及很多库的,这些打包进去。但是整个项目里的东西是完整的(包括数据) 运行这个系统需要数据支持,所以请合并像我这样将所要使用的数据跟exe放在同一个文件夹下,否则运行不了。 软件架构 系统实现: 分词:使用jieba中文分词(去中断词,精确模式); 词性标注:使用jieba库里的posseg包进行词性标注; 关键词:基于lda模型结合tfidf的最合适的前六个词; 文本分类:给
2022-04-01 15:10:34 20.28MB nlp Python
1
语义理解/口语理解,项目包含有词法分析:中文分词、词性标注、命名实体识别;口语理解:领域分类、槽填充、意图识别。
2022-03-22 16:05:31 3KB Python开发-自然语言处理
1
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。
2022-03-08 10:02:14 1.34MB 专利分类 词性标注 特征融合
1
工具介绍 LAC全称中文的词法分析,是百度自然语言处理部研发的一种联合的词法分析工具,实现中文分词,词性标注,专名识别等功能。该工具具有以下特点和优势: 效果好:通过深度学习模型联合学习分词,词性标注,专名识别任务,单词索引,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果领先。 效率高:精简模型参数,结合Paddle预测库的性能优化,CPU单线程性能达800QPS,效率领先。 可定制:实现简单可控的干预机制,精确匹配用户字典对模型进行干预。 调用便捷:支持一键安装,同时提供了Python,Java和C ++调用接口与调用示例,实现快速调用和集成。 支持
1
英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。
2022-03-05 11:56:03 384KB 词性标注训练资料
1
用于临床文本的细粒度中文分词和词性标注语料库
2022-02-24 16:40:25 495KB 研究论文
1
nlp词性标注pos tag的demo含训练集, 将英文句子的词性标注,并解释词性例如trying to keep pace with rival Time magazine 运行结果为 word: trying result: VBG explain: Verb, gerund or present participle 动名词和现在分词 ----------------------------- word: to result: TO explain: to 作为介词或不定式格式 ----------------------------- word: keep result: VB explain: Verb, base form 动词基本形式 ----------------------------- word: pace result: NN explain: Noun, singular or mass 常用名词 单数形式 ----------------------------- word: with result: IN explain: Preposition or subordinating conjunction 介词或从属连词 ----------------------------- word: rival result: JJ explain: Adjective 形容词或序数词 ----------------------------- word: Time result: NNP explain: Proper noun, singular 专有名词,单数形式 ----------------------------- word: magazine result: NN explain: Noun, singular or mass 常用名词 单数形式 -----------------------------
2022-02-16 15:48:13 461KB nlp
1
2014年的人民日报数据,总共有28万行,可直接做词性标注训练使用,处理后也可以做实体识别模型训练用。
2021-12-27 19:55:45 124.07MB nlp 词性标注 NER 命名实体识别
1
微软亚研的中文分词、词性标注和命名实体识别语料,包括训练和验证集,xml格式,方便使用,机器学习、信息检索以及NLP领域的研究人员使用来训练模型
1