本文档详细分析了预训练语言模型领域的最新进展,可为自然语言处理的研究和学习人员提供参考。用于重现分析结果的代码可在github上获取。
2023-02-10 12:19:55 304KB 自然语言处理 NLP 语言模型 Bert
1
SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000
2023-02-09 16:48:42 44.7MB 数据集 NLP 情感分析
1
中文语义情绪识别训练样本 购物评论训练样本 可用于自然语义识别模型训练和预测 自带2万余条带有正负情绪倾向的中文评论
2023-02-08 16:19:56 2.85MB 机器学习 NLP 训练样本
1
JVnTextPro 基于Java的越南文字处理工具 原始项目URL: : JVnTextPro是Java开源工具,它基于条件随机字段(CRF)和最大熵(Maxent),用于越南语的自然语言处理(NLP)。 此工具包含多个步骤(或子问题工具),用于越南语预处理和以流水线方式设计的处理,其中一步的输出用于下一步。 子问题工具是句子分割工具,句子标记化工具,词分割工具和词性标记工具。 该工具对越南NLP社区很有用。 我们非常感谢任何有助于修复错误并提高准确性的错误报告,评论或建议。 用法 需要或更高版本。 楷模 从3.0.1版开始,模型可以作为单独的jar或作为可执行jar的一部分发布(请参见下面的详细信息)。 如果您想训练自己的模型,请参阅。 在Java中的用法 您首先应该在Maven,Ivy或Gradle文件中将JVnTextPro添加为依赖项。 JVnTextPro可从和。 如
2023-02-08 15:22:39 20.94MB nlp vietnamese Java
1
搭建LSTM网络的情感分类网络,加载预训练的word2vec语言模型参数,在IMDB训练数据集上进行模型训练,获得最优分类模型,并在IMDB测试数据集上进行测试,将训练和测试结果进行可视化展示。
2023-02-07 22:42:17 10KB 自然语言处理 pytorch LSTM word2vec
1
matlab 反向传播算法代码 MachineLearning-DeepLearning-NLP-LeetCode-StatisticalLearningMethod 最近在学习机器学习,深度学习,自然语言处理,统计学习方法等知识,所以决定自己将学习的相关算法用Python实现一遍,并结合GitHub上相关大牛的代码进行改进,本项目会不断的更新相关算法,欢迎star,fork和关注。 主要包括: 1.吴恩达Andrew Ng老师的机器学习课程个人笔记 Python实现, 2.deeplearning.ai(吴恩达老师的深度学习课程笔记及资源) Python实现, 3.李航《统计学习方法》 Python代码实现, 4.牛津大学xDeepMind 自然语言处理 Python代码实现, 5.LeetCode刷题,题析,分析心得笔记 Java和Python代码实现, 6.TensorFlow人工智能实践代码笔记 北京大学曹健老师课程和TensorFlow:实战Google深度学习框架(第二版) Python代码实现, 附带一些个人心得和笔记。GitHub上有很多机器学习课程的代码资源,我也准备
2023-02-03 12:37:58 720KB 系统开源
1
Conll-2003 数据集:第一列是单词,第二列是词性,第三列是语法,第四列是实体标签。在NER任务中,只关心一和四列。
2023-01-31 16:37:08 729KB 自然语言处理 人工智能 nlp
1
Yelp分析和评级预测 概述 Yelp是一个带有社交网络工具的区域目录平台和审阅网站。 该网站提供了针对本地企业(水疗中心,餐厅,百货公司,酒吧,本地本地服务,商店,汽车)的众包评论。 这有助于用户进行业务评级和评论。 通常,评论是由几百行左右的单词组成的简短文本,描述了各个方面的各种用户体验。 这为企业所有者提供了改进产品的机会,并使客户可以选择最佳的行业。 商业价值/分析目标 管理层可能没有足够的时间来进行每一次审核。 如果可以一目了然地向他们提供有价值的信息和见解,那将是非常有用和节省时间的。 不仅对于管理人员,而且对于试图了解更多餐厅信息并需要一些帮助来订购或选择餐厅的客户,也是如此。 毕竟,在当今世界,每个人都喜欢在做出决定之前先阅读评论和反馈。 在我们的项目中,我们使用自然语言处理和机器学习来实现这些业务和客户目标。 我们专注于情感分析,主题建模,数据分析和评级预测的分类。 数
2023-01-29 20:44:46 2.59MB nlp machine-learning text-analytics yelp-dataset
1
按键文字 想法是建立一个将关键字作为输入并生成句子作为输出的模型。 模型: 已经建立了两个模型: 使用T5的基本大小= 850 MB可以在这里找到: : 使用T5,小尺寸= 230 MB,可以在这里找到: : 用法: from transformers import AutoTokenizer , AutoModelWithLMHead tokenizer = AutoTokenizer . from_pretrained ( "gagan3012/keytotext-small" ) model = AutoModelWithLMHead . from_pretrained ( "gagan3012/keytotext-small" ) 这使用了我构建的自定义流式compopnet: pip install streamlit-tags 也可以在上找到安装 演示: 例
2023-01-29 10:30:02 8.04MB nlp keywords sentences t5
1
C#下调用Stanford CoreNLP,实现中文分词,命名实体识别,词性判断.附件中只包含如何调用,需自行从stanford官网下载模型和语料
2023-01-11 10:15:55 20.83MB NLP Stanford Cor C#
1