蒙古BERT型号 该存储库包含由 , 和训练的经过预训练的蒙古模型。 特别感谢提供了5个TPU。 该存储库基于以下开源项目: ,和 。 楷模 词汇量为32000的用作文本标记器。 您可以使用蒙版语言模型笔记本 测试经过预训练的模型可以预测蒙面蒙语单词的效果如何。 BERT-Base: 和 BERT-Large: HuggingFace 未装箱的BERT-Base: TensorFlow检查点和PyTorch模型 未装箱的BERT-Large: HuggingFace 盒装BERT-Base 下载TensorFlow检查点或PyTorch模型。 评估结果: global_step = 4000000 loss = 1.3476765 masked_lm_accuracy = 0.7069192 masked_lm_loss = 1.2822781 next_sentence_a
1
FastWER 用于快速字/字符错误率 (WER/CER) 计算的 PyPI 包 快速(cpp 实现) 句子级和语料库级 WER/CER 分数 安装 pip install pybind11 fastwer 例子 import fastwer hypo = [ 'This is an example .' , 'This is another example .' ] ref = [ 'This is the example :)' , 'That is the example .' ] # Corpus-Level WER: 40.0 fastwer . score ( hypo , ref ) # Corpus-Level CER: 25.5814 fastwer . score ( hypo , ref , char_level = True ) # Sentence-Leve
1
Neural Network Methods in Natural Language Processing 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
2021-11-17 14:53:56 2.98MB Neural Network Methods Natural
1
关于在英语语料库上进行词嵌入训练的研究很多。 该工具包通过在德语语料库上应用深度学习,以训练和评估德语模型。 有关项目,评估结果和的概述可在或直接在此存储库中找到。 该项目是根据发布的。 开始吧 确保已安装Python 3以及以下库: pip install gensim nltk matplotlib numpy scipy scikit-learn 现在,您可以下载并在您的Shell中执行它,以自动下载此工具包和相应的语料库文件并进行模型训练和评估。 请注意,这可能需要大量时间! 您也可以克隆此存储库,并使用我已经进行评估和可视化。 如果您只想查看不同Python脚本的工作方式,
1
seqGAN PyTorch实现的“ SeqGAN:具有策略梯度的序列生成对抗网络”。 (于兰涛等)。 该代码经过高度简化,注释和(希望)易于理解。 实施的策略梯度也比原始工作( )简单得多,并且不涉及推广-整个句子使用单一奖励(受的示例启发) )。 使用的体系结构与原始工作中的体系结构不同。 具体而言,将循环双向GRU网络用作鉴别器。 该代码按论文中所述对合成数据进行实验。 我们鼓励您对代码作为问题的工作方式提出任何疑问。 要运行代码: python main.py main.py应该是您进入代码的入口。 技巧与观察 在这种情况下,以下黑客(从借来)似乎有效: 培训鉴别器
1
CYK解析器 这是用Python 3编写的简单的无上下文语法分析器。它包含一个转换器,可将无上下文语法转换为chomsky普通形式。 但是,该转换器无法处理epsilon生产。 对于实际解析,使用Cocke-Younger-Kasamai算法。 该代码无论如何都不是完美的,也不应该做到。 随意在自己的项目中使用任何代码。 用法 作为独立程序 要运行解析器,需要安装Python 3.6 。 文件“ GrammarConverter.py”需要位于同一目录中,或者位于Python寻找要包含的模块的目录中。 该程序可以在同一目录中作为模块( python3 -m Parser )运行,也可以作为常
2021-11-13 21:40:26 6KB nlp parser natural-language-processing parsing
1
自然语言预处理(NLPre) 主要版本更新! NLPre 2.0.0 后端NLP引擎pattern.en已被spaCy v 2.1.0取代。 这是针对pattern.en某些问题(包括不良lemmatization)的主要解决方案。 (例如,细胞因子->细胞牛) 对python 2的支持已被删除 在replace_from_dictionary支持自定义词典 在replace_from_dictionary使用后缀而不是前缀的选项 URL替换现在可以删除电子邮件 token_replacement可以删除符号 NLPre是一个文本(预处理)库,可帮助消除实际数据中发现的某些不一致之处。 纠
1
伯特 ***** 2020年3月11日新产品:更小的BERT模型***** 此版本发行了24个较小的BERT模型(仅限英语,无大小写,使用WordPiece掩码进行了培训),在读物精通的 。 我们已经证明,除了BERT-Base和BERT-Large之外,标准BERT配方(包括模型体系结构和训练目标)对多种模型尺寸均有效。 较小的BERT模型适用于计算资源有限的环境。 可以按照与原始BERT模型相同的方式对它们进行微调。 但是,它们在知识提炼的情况下最有效,在这种情况下,微调标签是由更大,更准确的老师制作的。 我们的目标是允许在计算资源较少的机构中进行研究,并鼓励社区寻找替代增加模型容量的创新方向。 您可以从 下载全部24个,也可以从下表单独下载: 高= 128 高= 256 高= 512 高= 768 L = 2 L = 4 L = 6 L = 8 L = 10 L = 12 请注意,此版本中包含的BERT-Base模型仅出于完整性考虑; 在与原始模型相同的条件下进行了重新训练。 这是测试集上相应的GLUE分数: 模型 得分 可乐 SST-2 MR
2021-11-08 15:02:52 106KB nlp natural-language-processing google tensorflow
1
文字傻瓜 自然语言对文本分类和推理的攻击模型 这是该论文的源代码: 。 如果使用代码,请引用以下文章: @article{jin2019bert, title={Is BERT Really Robust? Natural Language Attack on Text Classification and Entailment}, author={Jin, Di and Jin, Zhijing and Zhou, Joey Tianyi and Szolovits, Peter}, journal={arXiv preprint arXiv:1907.11932}, year={2019} } 数据 我们的7个数据集在。 先决条件: 所需的软件包在requirements.txt文件中列出: pip install requirements.txt 如何使用
1
FinBERT-QA:使用 BERT 回答金融问题 FinBERT-QA 是一个问答系统,用于从数据集的任务 2 中检索有金融段落。 请参阅获取更多信息。 该系统使用来自信息检索和自然语言处理的技术,首先使用 Lucene 工具包检索每个查询的前 50 个候选答案,然后使用预训练的模型的变新排列候选答案。 FinBERT-QA 从 Huggingface 的库构建并应用 Transfer and Adapt [ ] 方法,首先将预训练的 BERT 模型转移并微调到一般 QA 任务,然后使用 FiQA 数据集将该模型适应金融领域。 转移步骤在的数据集上使用微调的 BERT 模型 ,它从 TensorFlow 转换为 PyTorch 模型。 在三个排名评估指标(nDCG、MRR、Precision)上结果平均提高了约 20%。 Overview of the QA pipeline:
1