对NER的监管不力 与ACL 2020接受的论文“没有标签数据的命名实体识别:弱监督方法”相关的源代码。 要求: 您首先应该确保安装以下Python软件包: spacy (版本> = 2.2) hmmlearn snips-nlu-parsers pandas numba scikit-learn 您还应该在Spacy中安装en_core_web_sm和en_core_web_md模型。 要在ner.py运行神经模型,还需要安装pytorch , cupy , keras和tensorflow 。 要运行基线,您还需要安装snorkel 。 最后,您还需要下载以下文件并将
1
文件2 动机 给定两个具有相同行数的文件, files2rouge计算每个序列(=行)的平均ROUGE得分。 每个序列可以包含多个句子。 在这种情况下,必须使用--eos标志(默认值:“。”)传递句子字符串的结尾。 使用错误的eos分隔符运行files2rouge可能会导致ROUGE-L得分不正确。 您可能还对Python实现(而不是包装器)感兴趣: : 。 $ files2rouge --help usage: files2rouge [-h] [-v] [-a ARGS] [-s SAVETO] [-e EOS] [-m] [-i] refer
1
Foundations of Statistical Natural Language Processing
2021-08-18 10:16:42 7.32MB Foundations of Statistical Natural
1
Natural Language Processing
2021-08-14 14:17:59 4KB NLP,Natural Language Processing
1
nlp学习的基础教材,共583页,内含目录。
1
UA-GEC:乌克兰语的语法错误纠正和流畅语料库 此存储库包含 UA-GEC 数据和随附的 Python 库。 数据 所有语料库数据和元数据都保存在./data 。 它有两个子文件夹用于 每个拆分(训练和测试)都有用于不同数据表示的更多子文件夹: ./data/{train,test}/annotated以带存储文档 ./data/{train,test}/source和./data/{train,test}/target存储文档的原始版本和更正版本。 这些目录中的文本文件是没有注释标记的纯文本。 这些文件是根据带注释的数据生成的,在某种程度上是多余的。 我们保留它们是因为这种格式在某些用例中很方便。 元数据 ./data/metadata.csv存储每个文档的元数据。 这是一个包含以下字段的 CSV 文件: id (str):文档标识符。 author_id (str):文档作者标
1
BERTopic是一种主题建模技术,它利用BERT嵌入和c-TF-IDF创建密集的群集,从而使主题易于理解,同时又在主题描述中保留了重要的单词。 BERTopic是一种主题建模技术,它利用BERT嵌入和c-TF-IDF创建密集的群集,从而使主题易于理解,同时又在主题描述中保留了重要的单词。 相应的中等职位可以在这里找到。 关于项目算法的目录2.1。 句子转换器2.2。 UMAP + HDBSCAN 2.3。 c-TF-IDF入门3.1。 安装3.2。 基本用法3.3。 概述Google合作实验室1.关于项目返回目录
2021-08-03 10:35:53 5.78MB Python Natural Language Processing
1
mindspore-nlp-教程 mindspore-nlp-tutorial是针对谁正在使用MindSpore研究NLP(自然语言处理)的教程。 该存储库是从迁移的。 NLP中的大多数模型都是从Pytorch版本迁移而来的,少于100行代码(注释或空白行除外) 注意:所有模型均在GPU版本中实现,但未在Ascend平台上进行测试。 课程-(示例用途) 1.基本嵌入模型 1-1。 -预测下一个单词论文- 1-2。 -嵌入单词和显示图 论文- 2. CNN(卷积神经网络) 2-1。 二进制情感分类 论文- 3. RNN(递归神经网络) 3-1。 预测下一步论文- 3-2。 自动完成论文-长期记忆(1997) 3-3。 Bi-LSTM-预测长句中的下一个单词 4.注意机制 4-1。 Seq2Seq-更改单词 论文-使用RNN编码器-用于统计机器翻译的解码器来学习短语表示(
1
ABSA-PyTorch 基于方面的情感分析,PyTorch实现。 基于方面的情感分析,使用PyTorch实现。 需求 火炬> = 0.4.0 numpy的> = 1.13.3 斯克莱恩 python 3.6 / 3.7 变形金刚 要安装需求,请运行pip install -r requirements.txt 。 对于非基于BERT的模型,需要,请参阅了解更多详细信息。 用法 训练 python train.py --model_name bert_spc --dataset restaurant 所有实现的模型都列在。 有关更多训练参数,请参见 。 请参阅以获取k倍交叉验证支持。 推理 有关基于非BERT的模型和基于BERT的模型,请参考 。 提示 对于非基于BERT的模型,训练过程不是很稳定。 基于BERT的模型对小数据集上的超参数(尤其是学习率)更敏感,请参阅。 为了释放BERT的真正功能,必须对特定任务进行微调。 评论/调查 邱锡鹏等。 “自然语言处理的预训练模型:调查。” arXiv预印本arXiv:2003.08271(2020)。 张磊,王帅和刘
1
Natural-Language-Processing-with-Python-Cookbook.pdf
2021-07-16 20:31:18 32.13MB 综合文档
1