使用RNN循环神经网络实现对爬取的京东评论信息进行情感分析 其中包括源代码、数据集、停用词等
2023-03-22 12:02:45 3.41MB 深度学习 NLP 循环神经网络 文本分类
1
nlp 包含自然语言处理的一些代码 包括英语的转换(分割为句子,token)
2023-03-22 01:18:39 6KB Java
1
自然语言界的圣经 从本书第一版出版以来,一直好评如潮,被国外许多大学选作自然语言处理或计算语言学的教材,被认为该领域教材的“黄金标准”。 本书第一版综合了自然语言处理、计算语言学和语音识别的内容,全面论述计算机自然语言处理,深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容,全书面貌为之一新。本书四大特色: 覆盖全面 强调实用 注重评测 语料为本内容简介本书全面论述了自然语言处理技术。
2023-03-20 17:24:21 181.41MB NLP
1
提交Kaggle竞赛“真实与否?NLP与灾难鸣叫”(排名前25%) 挑战链接: : 链接到公共Kaggle笔记本(SVM): : 在此存储库中,您将找到3个笔记本: 一种使用spaCy字向量和SVM的 一种使用BiLSTM的 一种将预训练的BERT用于序列分类 在测试集上,SVM的f1得分达到0.81152,BiLSTM达到0.80,而BERT达到〜0.83 f1得分。
2023-03-20 16:46:11 990KB nlp svm binaryclassification JupyterNotebook
1
基于训练好的语言模型(使用gensim的word2vecAPI),编写了一个情感分类模型,包含一个循环神经网络模型(LSTM)和一个分类器(MLP)。首先,将一个句子中的每个单词对应的词向量输入循环神经网络,得到句子的向量表征。然后将句向量作为分类器的输入,输出二元分类预测,同样进行loss 计算和反向梯度传播训练,这里的 loss 使用交叉熵 loss。
2023-03-19 15:08:18 12KB nlp pytorch lstm rnn
1
glove词向量,应用于初始化word embedding,以尝试更好的正确率等performance
2023-03-18 19:25:54 258.8MB NLP
1
Real_Time_DataMining_Sortware 一款能实时进行文本挖掘的软件,不占用多余的存储空间,直接将采集后的数据集中存储在本地txt中,运用本软件无需进行大量的手动翻页操作,输入对应的店铺链接即可对民宿进行分析包含接结构化数据的可视化和非结构化UGC的情感分析,包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo。基于在线民宿UGC数据的意见挖掘项目,包含数据挖掘和NLP相关的处理,负责数据采集、整句切分、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线UGC进行数据挖掘并可视化,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。 软件包含数据采集(txt_analys
2023-03-18 01:22:15 1.86MB nlp demo sentiment-analysis data-spider
1
参数值高达上亿,有点考验你的机器额 不过写作效果真是杠杠的,赶紧下载回去惊艳你的同事和同学吧。 安装过程吗,有手就行。 由于采用了一个基于解码器结构的单向语言模型,使用100G中文常用数据,32个A100训练了28个小时,是目前最大的开源GPT2中文大模型,写作质量当然也是极好的啊。 下载模型的时候需要耗费一些时间,不过好消息是下载一次就一劳永逸了。 随着人工智能研究的深入,各种模型参差不齐,层出不穷,好处就是大家学习人工智能自然语言处理更加容易了,心情是最好的老师,通过具体的实践,才会对书上那些晦涩难懂的概念有具象的认知。 所以赶紧用起来吧,不过也需要有一些python的基础,懂一点自然语言处理的入门知识。大家还可以下载我上传的其他资源,都是注释特别详细,非常浅显易懂,上手非常快的。 如果有训练好的模型,也可以共享给大家。
2023-03-12 09:43:38 709B GPT2 智能写作 自然语言处理 NLP
1
关系抽取任务采用DuIE2.0数据集,包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。数据集分为以下5个部分: 关系schema:48个预定义的关系类型,其中43个简单O值的关系类型,5个复杂O值的关系类型。 训练集:共17万个句子,包含句子中对应的SPO,用于竞赛模型训练。 验证集:共2万个句子,包含句子中对应的SPO,用于竞赛模型训练和参数调试。 测试集: 约2万个句子,不包含句子中对应的SPO。该数据用于作为最终的系统效果评估。 注:另外为了防止针对测试集的调试,数据中将会额外加入混淆数据。
2023-03-09 20:38:12 36.81MB NLP
1
BERT-NER-Pytorch-master
2023-03-09 19:19:58 229KB nlp
1