chop Python 中文分词工具包 欢迎 GitHub: Pypi: 依赖 Python3 使用说明 代码对 Python 3 兼容 全自动安装: easy_install chop 或者 pip install chop / pip3 install chop 接口 from chop.hmm import Tokenizer as HMMTokenizer from chop.mmseg import Tokenizer as MMSEGTokenizer sentence = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作。" def main(): HT = HMMTokenizer() MT = MMSEGTokenizer() print('HMM Tokenizer:', ' '.join(HT.cut(senten
2023-05-16 14:07:58 7.81MB nlp segment parser chinese-nlp
1
自然语言处理技术之知识图谱的两篇入门文章,包括简介和进阶,PDF格式,文章不长,可以作为入门读物
2023-04-30 21:59:30 1.58MB 知识图谱 自然语言处理 NLP
1
SharpNLP是C#实现的一个开源的自然语言处理工具集,它提供了如下功能: * 句子分割 * 分词 * 词性标注(POS tagging) * a chunker (used to "find non-recursive syntactic annotations such as noun phrase chunks") * a parser * a name finder * a coreference tool * 访问wordent数据库的借口
2023-04-24 17:23:24 603KB NLP sentiment wordnet segmentation
1
本文是自动化科学与电气工程学院电子信息专业学生朱远哲在深度学习与自然语言处理课程中完成的第三次大作业,题目为LDA模型。该文首先描述了问题的背景和目的,然后介绍了LDA模型的原理和应用,包括主题模型和文本分类等方面。接着,作者详细阐述了LDA模型的实现过程和结果分析,包括数据预处理、模型训练和评估等方面。最后,作者总结了LDA模型的优缺点和未来研究方向,并对本次大作业的收获和不足进行了反思和展望。
2023-04-24 09:08:38 957KB
1
这是本人通过网上博文整理的文本挖掘知识体系思维导向图,便于理解和整理思路。后续的朋友可以根据自己的知识进行对其删除或增加完善它。
2023-04-23 21:49:49 50KB 文本挖掘 NLP DeepNLP 数据挖掘
1
jLDADMM:用于LDA和DMM主题模型的Java包 jLDADMM已发布,它为普通或短文本上的主题建模提供了替代方法。 概率主题模型,例如潜在狄利克雷分配(LDA)[1]和相关模型[2],被广泛用于发现文档集中的潜在主题。 但是,由于数据稀疏性以及此类文本中的上下文有限,将主题模型应用于短文本(例如Tweets)更具挑战性。 一种方法是在训练LDA之前将短文本组合成长的伪文档。 另一种方法是假设每个文档只有一个主题[3]。 jLDADMM提供了LDA主题模型[1]和每个文档一个主题的Dirichlet多项式混合(DMM)模型(即,字母组合的混合)[4]的实现。 LDA和DMM的实现分别使
2023-04-18 11:35:19 133KB nlp topic-modeling lda short-text
1
利用rnn网络和lstm网络进行下一个字的预测 eg: `输入`:**我觉得这个【向后输出20个字】** `输出`:**我觉得这个地方便,但是一个人的,但是一个人的,但是一个**
2023-04-17 01:30:45 3.88MB nlp rnn lstm
1
TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12 种语言超过1.2亿 个对齐句子并进行了句子对齐。 所有的预处理都是自动完成。
2023-04-13 20:23:17 365.48MB 自然语言理解 NLP 机器翻译
1
带S-NET提取的MSMARCO(提取网) 的CNTK(Microsoft深度学习工具包)实现提取部分的并进行了一些修改。 该项目是为数据集设计的 代码结构基于 支持MSMARCO V1和V2! 要求 这是一些培训和评估所需的库。 一般的 python3.6 cuda-9.0(需要CNTK) openmpi-1.10(需要CNTK) gcc> = 6(需要CNTK) Python 请参考requirements.txt 使用预先训练的模型进行评估 此存储库提供了经过预训练的模型和经过预处理的验证数据集以测试性能 请下载和经过,并将它们分别放在MSMARCO/data和MSMARCO根目录中,然后在正确的位置将其解压缩。 代码结构应该像 MSMARCO ├── data │   ├── elmo_embedding.bin │   ├── test.tsv │   ├── vo
2023-04-13 15:17:51 2.48MB nlp cntk question-answering machine-comprehension
1
武汉数据分析 该系列资源是Python疫情大数据分析,涉及网络爬虫,可视化分析,GIS地图,情感分析,舆情分析,主题挖掘,威胁情报溯源,知识图谱,预测预警及AI和NLP应用等。博客阅读,武汉必胜,湖北必胜,中国必胜! 发布者:Eastmount CSDN YXZ 2020-02-20 译文推荐: 我们们中国人一生的最高追求,为天地立心,为生民立命,为往圣继绝学,为万世开太平。以一人之力系。他们真是做到了,武汉加油,中国加油!
2023-04-13 00:22:29 36.37MB HTML
1