【完整课程列表】 完整课程地址:https://download.csdn.net/download/qq_27595745/51277771 使用C sharp开发搜索引擎 C#搜索引擎开发实战 01-C#基础(共40页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 02-搜索引擎基础(共15页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 03-网络爬虫(共27页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 04-正则表达式(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 05-HtmlAgilityPack(共17页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 06-正文提取(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 07-提取文件(共14页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 08-文本排重(共28页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 09-提取关键词(共16页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 10-拼写检查(共41页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 11-文本摘要(共15页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 12-文本分类(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 13-文本聚类(共21页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 14-信息提取(共14页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 15-中文分词(共10页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 16-查词典(共37页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 17-逆向分词(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 18-有限状态机(共31页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 19-切分词图(共16页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 20-概率分词(共26页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 21-n元分词(共38页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 22-词性标注(共34页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 23-Lucene简介(共23页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 24-索引原理(共22页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 25-查询原理(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 26-分析器(共15页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 27-概念搜索(共13页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 28-相关度打分(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 29-搜索界面(共12页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 30-AJAX搜索界面(共25页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 31-Solr(共29页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 32-SolrNet(共10页).ppt 使用C sharp开发搜索引擎 C#搜索引擎开发实战 插图(共8页).ppt
2021-11-29 09:11:56 1.75MB c# 搜索引擎 中文分词 词性标注
分类_分词@12大类5485文本1127万_搜狗.20151022 各种词库 用语分词、词性标注等自然语言处理NLP任务
2021-11-27 20:55:30 8.24MB 词典 分词 语料
1
298032条中文分词词库,分词专用词性词频,mdb格式,直接可导入的数据库,格式为id 自增序号、key 中文分词、att词性、num词的频率,用office Access 打开
2021-11-26 18:35:49 14.22MB 中文分词词库
1
TextBlob:简化的文本处理主页:https://textblob.readthedocs.io/ TextBlob是用于处理文本数据的Python(2和3)库。 它提供了一个简单的API,用于深入研究常见的自然语言处理TextBlob:简化的文本处理主页:https://textblob.readthedocs.io/ TextBlob是用于处理文本数据的Python(2和3)库。 它提供了一个简单的API,可用于深入研究普通自然语言处理(NLP)任务,例如词性标记,名词短语提取,情感分析,分类,翻译等。 from textblob import TextBlob text ='''The Blob的名义威胁一直使我成为电影中的终极怪物:饥肠,、
2021-11-25 11:42:22 693KB Python Specific Formats Processing
1
甲言Jiayan 简介 甲言,取“Oracle言”之意,是一种专注于古汉语处理的NLP工具包。目前通用的汉语NLP工具均以现代汉语为核心语料,对古代汉语的处理效果很差(详见)。本项目的初衷,便是辅助古汉语信息处理,帮助有志于挖掘古文化矿藏的古汉语学者,爱好者等更好的地分析和利用文言资料,从“文化遗产”中创造出“文化新产”。当前版本支持,,,和五项功能,更多功能正在开发中。 功能 利用无监督的双,以及左右进行文言词库自动生成。 利用无监督,无词典的和进行古汉语自动分词。 利用词库合成功能产生的文言词典,基于有向无环词图,句子最大概率路径和动态规划算法进行分词。 根据词的的序列标注,词性详见。 基
1
C#版中科院的分词及词性标注系统,效果很好,而且做了C#的包装,为C#下的开发提供了方便~
2021-11-18 16:41:29 1.88MB 分词 C# 中科院
1
汉语常见词语 分类,这是我见过最全的了,根据编码CODE区分 比如 An04 "," 阿飞 " an04:表示人物 a开头的都是名词,值得拥有 很难找的哈
2021-11-18 14:06:06 2.81MB 汉语    词性 分类
1
词性标注源码,我们的源码是用C++来实现的,主要是实现了隐马尔科夫模型和维特比算法。
2021-11-11 21:06:23 2.72MB 中文词性标注 hmm
1
import re import numpy as np import pandas as pd import nltk.tokenize as tk import nltk.corpus as nc handel_file = 'health_handel.csv' #分词好要保存的数据文件路径 #读取数据 data=pd.read_excel('health.xlsx') print(data.head(10)) stopwords = nc.stopwords.words('english') #停用词 tokenizer=tk.WordPunctTokenizer() #分词器
2021-11-04 21:22:31 513KB 健康 分词 词性标注
1
隐马尔可夫模型词性标注器 概述 一种用于英语,印地语和中文的隐马尔可夫模型词性标记器。 训练数据被标记和标记; 测试数据也会被标记化,标记器会将标记添加到测试数据中。 对看不见的单词加一个平滑处理。 培训和发展数据: 两个文件(一个英文,一个中文),带有单词/标签格式的带标签的训练数据,单词之间用空格分隔,每个句子换行。 两个文件(一个英文,一个中文),带有未标记的开发数据,单词之间用空格分隔,每个句子换行。 两个文件(一个英语,一个中文),带有单词/标签格式的带标签的开发数据,单词之间用空格分隔,每个句子用换行符表示,作为答案键。 程式 由两个程序组成:hmmlearn.py从训练数据中学习隐藏的马尔可夫模型,hmmdecode.py使用该模型标记新数据。 通过以下方式调用学习程序: python hmmlearn.py / path / to / input 参数是一个包含训练
2021-10-27 16:11:11 2.05MB Python
1