SharpNLP是C#实现的一个开源的自然语言处理工具集,它提供了如下功能: * 句子分割 * 分词 * 词性标注(POS tagging) * a chunker (used to "find non-recursive syntactic annotations such as noun phrase chunks") * a parser * a name finder * a coreference tool * 访问wordent数据库的借口
2023-04-24 17:23:24 603KB NLP sentiment wordnet segmentation
1
本文是自动化科学与电气工程学院电子信息专业学生朱远哲在深度学习与自然语言处理课程中完成的第三次大作业,题目为LDA模型。该文首先描述了问题的背景和目的,然后介绍了LDA模型的原理和应用,包括主题模型和文本分类等方面。接着,作者详细阐述了LDA模型的实现过程和结果分析,包括数据预处理、模型训练和评估等方面。最后,作者总结了LDA模型的优缺点和未来研究方向,并对本次大作业的收获和不足进行了反思和展望。
2023-04-24 09:08:38 957KB
1
这是本人通过网上博文整理的文本挖掘知识体系思维导向图,便于理解和整理思路。后续的朋友可以根据自己的知识进行对其删除或增加完善它。
2023-04-23 21:49:49 50KB 文本挖掘 NLP DeepNLP 数据挖掘
1
jLDADMM:用于LDA和DMM主题模型的Java包 jLDADMM已发布,它为普通或短文本上的主题建模提供了替代方法。 概率主题模型,例如潜在狄利克雷分配(LDA)[1]和相关模型[2],被广泛用于发现文档集中的潜在主题。 但是,由于数据稀疏性以及此类文本中的上下文有限,将主题模型应用于短文本(例如Tweets)更具挑战性。 一种方法是在训练LDA之前将短文本组合成长的伪文档。 另一种方法是假设每个文档只有一个主题[3]。 jLDADMM提供了LDA主题模型[1]和每个文档一个主题的Dirichlet多项式混合(DMM)模型(即,字母组合的混合)[4]的实现。 LDA和DMM的实现分别使
2023-04-18 11:35:19 133KB nlp topic-modeling lda short-text
1
利用rnn网络和lstm网络进行下一个字的预测 eg: `输入`:**我觉得这个【向后输出20个字】** `输出`:**我觉得这个地方便,但是一个人的,但是一个人的,但是一个**
2023-04-17 01:30:45 3.88MB nlp rnn lstm
1
TED平行语料库是多语言平行语料库,包括多语言并行语料库和单语语料库。从TED会议www.ted.com 提取109种世界语言。 多语言的平行语料库包括 12 种语言超过1.2亿 个对齐句子并进行了句子对齐。 所有的预处理都是自动完成。
2023-04-13 20:23:17 365.48MB 自然语言理解 NLP 机器翻译
1
带S-NET提取的MSMARCO(提取网) 的CNTK(Microsoft深度学习工具包)实现提取部分的并进行了一些修改。 该项目是为数据集设计的 代码结构基于 支持MSMARCO V1和V2! 要求 这是一些培训和评估所需的库。 一般的 python3.6 cuda-9.0(需要CNTK) openmpi-1.10(需要CNTK) gcc> = 6(需要CNTK) Python 请参考requirements.txt 使用预先训练的模型进行评估 此存储库提供了经过预训练的模型和经过预处理的验证数据集以测试性能 请下载和经过,并将它们分别放在MSMARCO/data和MSMARCO根目录中,然后在正确的位置将其解压缩。 代码结构应该像 MSMARCO ├── data │   ├── elmo_embedding.bin │   ├── test.tsv │   ├── vo
2023-04-13 15:17:51 2.48MB nlp cntk question-answering machine-comprehension
1
武汉数据分析 该系列资源是Python疫情大数据分析,涉及网络爬虫,可视化分析,GIS地图,情感分析,舆情分析,主题挖掘,威胁情报溯源,知识图谱,预测预警及AI和NLP应用等。博客阅读,武汉必胜,湖北必胜,中国必胜! 发布者:Eastmount CSDN YXZ 2020-02-20 译文推荐: 我们们中国人一生的最高追求,为天地立心,为生民立命,为往圣继绝学,为万世开太平。以一人之力系。他们真是做到了,武汉加油,中国加油!
2023-04-13 00:22:29 36.37MB HTML
1
分享课程——自然语言处理NLP企业级项目课程合集,共包含5门课程,依次是:医疗命名实体识别、火车票识别、新闻文本分类、属性级情感分析、实体关系抽取。3个NLP经典任务,2个真实商业项目。
2023-04-11 18:50:22 428B 自然语言处理
1
自然语言处理 我在这里分享了我在IE Univesity的自然语言处理课程中使用的一些代码。 我也分享我所做的项目。 1.计算歌曲的词汇多样性 我遇到一篇文章,讨论一些音乐家在其职业生涯中的整体词汇。 因此,我想将清单上前3位歌手和最后2位歌手的歌曲与我们在课堂上看到的3首歌曲进行比较。 排在首位的是Eminem(毫不奇怪),他的100首最慢的歌曲中使用了大约8,800个单词。 然后是Jay Z(6,900字)和Tupac Shakur(6,600字)。 排在最末的是Spice Girls和Bruno Mars(大约1500个单词)。 我尝试选择看起来在词汇上更加多样化的歌曲,并且与预期的一样,结果表明两组之间的差异很大,而且与我们看到的三首歌曲相比,差异也很大。 (可以在文件1_Lexical_Diversity中找到该代码) 2.分类模型:真实与否? NLP与灾难鸣叫 我们获得了将近1
2023-04-11 16:46:54 7.42MB JupyterNotebook
1