使用BERT的越南语NER(bert-vn-ner) 由Trong-Dat Ngo编写的代码。 引言 BERT模型的Pytorch实现为越南语执行命名实体识别(NER)。 此外,单词中的特征也用于表示单词。 该系统使用预训练模型 安装 要求: Python 3.6+ 火炬1.4+ 安装依赖项: pip3 install -r requirements.txt 数据集格式 bert-vn-ner的输入数据格式遵循CoNLL-2003格式,其中四列由制表符分隔,包括word , pos , chunk和named实体。 每个单词都放在单独的行上,每个句子后面都有一个空行。 请注意,分词不用于匹配BERT的预训练(以bert-base-multilingual-cased表示) 。 有关详细信息,请参见“数据”目录中的样本数据。 下表描述了数据集中的越南语例句示例。 单词 销售点
2023-03-23 21:36:36 710KB tagging named-entity-recognition ner bert
1
地址信息作为空间信息,在各行各业中的应用越来越广泛,通过日常地址和标准地址匹配获取到标准地址的经纬度的应用很广泛,目前在匹配中使用深度学习Bert模型的方法对地址进行分段分级,通过分级信息,对地址济宁精准匹配。
1
使用Bert进行文本二分类实验用的训练数据文件,仅限学习使用。
2023-03-15 10:19:54 128KB 文本分类 Bert
1
Bert-Pytorch-TextClassification-master
2023-03-14 20:26:55 6.13MB Bert-Pytorch
1
BERT-NER-Pytorch-master
2023-03-09 19:19:58 229KB nlp
1
更新:现在可以嵌入预训练的通用句子编码器和BERT句子转换器。阅读。 Top2Vec Top2Vec是用于主题建模和语义搜索的算法。它会自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。训练Top2Vec模型后,您可以: 获取检测到的主题数。 获取主题。 获取主题大小。 获取层次结构主题。 通过关键字搜索主题。 按主题搜索文档。 通过关键字搜索文档。 查找类似的单词。 查找类似的文档。 使用公开模型 有关其工作原理的更多详细信息,请参见。 好处 自动查找主题数。 无需停用词列表。 无需词干/词形限制。 适用于短文本。 创建联合嵌入的主题,文档和单词向量。 内置搜索功能。 它是如何工作的? 该算法所做的假设是,许多语义上相似的文档都表明了一个潜在的主题。第一步是创建文档和单词向量的联合嵌入。将文档和单词嵌入向量空间后,算法的目标是找到文档的密集簇,然后确定哪些单词将这些文档
2023-03-09 13:56:41 6.48MB word-embeddings topic-modeling semantic-search bert
1
“MSMARCO passage ranking task”阅读理解任务排名第一的BERT解决方案
2023-02-22 17:53:26 47KB Python开发-自然语言处理
1
Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着杨博一行一行代码撸起来。
1
BERT-QA
2023-02-18 16:18:28 4KB HTML
1
KBQA_zh 基于bert的KBQA,包含joint和pipeline两种模式 Introduction 本项目是一个基于知识三元组的简单的问答系统,分为joint和pipeline两种模式。joint模式为基于bert做意图识别和命名体识别的联合学习训练得到的模型,pipeline模式为单独训练命名实体识别和QA相似度模型。 Environment tensorflow 1.15 python 3.6 pymysql 0.10.1 grpcio 1.32.0 grpcio-tools 1.32.0 How to run 首先需要下载bert的中文预训练模型放在chinese_L-12_H-768_A-12文件夹下, 然后,以pipeline模式为例,执行如下命令,训练命名实体识别模型和问答模型: 1. cd qa_pipeline 2. sh run_ner.sh 3. sh run_
2023-02-18 15:35:51 4.68MB Python
1