NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.
1
udpipe-基于UDPipe的用于标记化,标记,合法化和依赖性解析的R包 该存储库包含的R包是绕UDPipe C ++库的RCPP包装物( , )。 UDPipe提供了与语言无关的标记,标记,词条化以及原始文本的依赖项解析,这是自然语言处理中必不可少的部分。 所使用的技术在论文中进行了详细说明:“使用UDPipe进行令牌化,POS标记,解密和解析UD 2.0”,可从以下网址获得: //ufal.mff.cuni.cz/~straka/papers/2017-conll_udpipe.pdf 。 在该论文中,您还将发现不同语言和流程速度的精确度(以每秒字数为单位)。 一般 在围绕UD
2022-06-29 13:12:39 4.69MB nlp natural-language-processing text-mining r
1
lingpipe 是alias公司开发的一款自然语言处理软件包。 包括的模块:   主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等
2021-04-27 14:06:03 1015KB lingpipe jar NLP 工具包
1