建立实验环境 1个安装python(2.7) 2安装点: 2.1下载pip 2.2解压缩后,安装指令python setup.py install 2.3 pip升级python -m pip install --upgrade pip 2.4 pip安装扩展包pip install jieba(这里以jieba包为例),如果速度较慢,可转换内部的阿里源,即pip install jieba -i --trusted-host mirrors.aliyun.com 3安装pycharm 4使用GitHub获取代码 4.1安装git 4.2登陆自己的GitHub账号,找到自己的项目,(别人的需要先fork过来,也可以直接git clone xxx,或者直接下载zip包放进pycharm) 4.3:pycharm,首先设置git的位置及github账号,点击Test都通过后继续,依次在菜单栏上单击,从版本控制GitHub上进行VCS检出,登陆自己的账号后选择相应的项目,得到代码。 4.4(更新fork的项目到最新的版本)同步叉子 5 ipython协同开发环境 5.
2022-12-23 21:57:16 76.57MB python nlp NaturallanguageprocessingPython
1
SciBERT SciBERT是经过科学文字训练的BERT模型。 SciBERT受过SciBERT )的论文训练。 语料库大小为114万张论文,3.1B令牌。 我们在培训中使用论文的全文,而不仅仅是摘要。 SciBERT拥有自己的词汇表( scivocab ),该词汇表最适合于训练语料库。 我们训练了有壳和无壳版本。 我们还包括在原始BERT词汇表( basevocab )上训练的模型,以进行比较。 它可在各种科学领域的nlp任务上实现最先进的性能。 评估的详细信息在。 评估代码和数据包含在此仓库中。 下载训练有素的模型 更新! 现在可以直接在allenai组织下的allenai框架内安装SciBERT模型: from transformers import * tokenizer = AutoTokenizer.from_pretrained('allenai/scibert_scivocab_uncased') model = AutoModel.from_pretrained('allenai/scibert_scivocab_uncased') tokenizer =
1
同义词 用于自然语言处理和理解的中文同义词。 更好的中文近义词:聊天机器人,智能问答工具包。 synonyms可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义转换,关键字提取,概念提取,自动摘要,搜索引擎等。 表中的内容: 欢迎 pip install -U synonyms 兼容py2和py3,当前稳定版本 提示:安装后初次使用会下载词向量文件,下载速度取决于网络情况。 本文档的配置和接口说明针对python工具包。 用法 支持使用环境变量配置分词词表和word2vec词向量文件。 环境变量 描述 SYNONYMS_WORD2VEC_BIN_MODEL_ZH_CN 使用word2vec训练的词向量文件,二进制格式。 SYNONYMS_WORDSEG_DICT 中文分词,格式和使用 同义词#nearby(单词[,大小= 10]) import synonyms print("人脸: ", synonyms.nearby("人脸")) print("识别: ", synonyms.nearby("识别")) print("NOT_EXIST: ", synony
2022-05-06 17:13:28 14.35MB nlp chatbot synonyms NaturallanguageprocessingPython
1
新冠疫情相似句对判定大赛线上第一名方案 pku吴彦祖队朱政烨 赛题分析 赛题背景 如何通过自然语言技术将问答进行相似分类仍然是一个替代的问题。如识别患者相似性问题,有利于理解患者真正诉求,帮助快速匹配正确答案,提升患者获得感;归纳医生相似答案,有助于分析答案规范性,保证疫情期间问诊规范性,避免误诊。 任务目标 比赛整理近万条真实语境下疫情相关的患者提问句对,要求选手通过自然语言处理技术识别相似的患者问题。 数据示例 查询1 查询2 标签 每晚运动后咯血,是怎么了? 每晚运动后咯血是什么原因? 1个 每晚运动后咯血,是怎么了? 每晚运动后为什么会咯血? 1个 每晚运动后咯血,是怎么了?
2022-04-19 18:06:57 1.7MB nlp NaturallanguageprocessingPython
1
基于pytorch的中文语言模型预训练 ACL2020最佳论文有一篇论文提名奖,《不要停止预训练:使语言模型适应领域和任务》。本文涉及很多语言模型预训练的实验,系统的分析了语言模型预训练对子任务的效果提升情况。有几个主要方面: 在目标领域的数据集上继续预训练(DAPT)可以提高效果;目标领域的语料与RoBERTa的原始预训练语料越不相关,DAPT效果则提升更明显。 在具体任务的数据集上继续预训练(TAPT)可以十分“廉价”地提升效果。 结合两者(先进行DAPT,再进行TAPT)可以进一步提升效果。 如果能获取更多的,任务相关的无标注数据继续预训练(Curated-TAPT),效果则最佳。 如果
2022-03-02 13:28:37 29KB nlp pytorch bert NaturallanguageprocessingPython
1
团队简介 大家好,我们是金融情报信息决定赛道的葫芦娃团队,本赛题的队伍成员均来自哈工大深圳的人类自然语言技术(HLT)小组,成员包括刘宇瀚,李嘉明,殷熔磾,刘道兴以及袁朝发。指导老师为徐睿峰教授。 方案分享 我们进行以下六点进行介绍 首先是任务简介与数据格式,具体的数据下载详见,也可以data文件夹里面的数据 整个数据存在一下的特征: 我们的整体方案流程如下: 数据集构造部分,我们按照如下形式构造,即内部实体级情感分类任务 数据预先部分我们采用如下操作: 为了更好学习到语料的信息,我们对语言模型在本数据集上又进行一次预训练 之后我们采用
1
甲言Jiayan 简介 甲言,取“Oracle言”之意,是一种专注于古汉语处理的NLP工具包。目前通用的汉语NLP工具均以现代汉语为核心语料,对古代汉语的处理效果很差(详见)。本项目的初衷,便是辅助古汉语信息处理,帮助有志于挖掘古文化矿藏的古汉语学者,爱好者等更好的地分析和利用文言资料,从“文化遗产”中创造出“文化新产”。当前版本支持,,,和五项功能,更多功能正在开发中。 功能 利用无监督的双,以及左右进行文言词库自动生成。 利用无监督,无词典的和进行古汉语自动分词。 利用词库合成功能产生的文言词典,基于有向无环词图,句子最大概率路径和动态规划算法进行分词。 根据词的的序列标注,词性详见。 基
1
自关注与文本分类 本仓库基于自关注机制实现文本分类。 依赖 Python 3.5 凯拉斯 数据集 IMDB影评高度分类数据集,来自IMDB的25,000条影评,被标记为正面/纵向两种评价。影评已被预先为词下标构成的序列。方便起见,单词的下标基于它在数据集中出现的频率标定,例如整数3所编码的词为数据集中第3常出现的词。 按照惯例,0不代表任何特定的词,而编码为任何未知单词。 用法 训练 $ python imdb_attention.py 比较结果 算法 训练时间(每纪元) Val准确率 Val损失 所需Epoch数 LSTM 116秒 0.8339 0.3815 2 双向LSTM
1
PyTorch中的快速批处理Bi-RNN(GRU)编码器和注意解码器实现 这段代码是用PyTorch 0.2编写的。 在PyTorch发行其1.0版本时,已经有很多基于PyTorch构建的出色的seq2seq学习包,例如OpenNMT,AllenNLP等。您可以从其源代码中学习。 用法:请注意有关注意力-RNN机器翻译的官方pytorch教程,除了此实现处理批处理输入,并且实现稍微不同的注意力机制。 为了找出实现方式在公式级别上的差异,下面的插图会有所帮助。 PyTorch版本机制图,请参见此处: PyTorch Seq2seq官方机器翻译教程: 巴赫达瑙(Bahdanau)注意图,请参
1
多种语言的预训练ELMo表示 我们发布了接受多种语言培训的ELMo表示形式,这有助于我们赢得LAS根据赢得的。 技术细节 我们使用与相同的超参数设置 for biLM和角色CNN。 我们根据从每种任务的共享任务(wikidump +通用抓取)发布的原始文本中随机抽取的2000万字数据集训练其参数。 我们主要基于的代码,但进行了以下更改: 我们支持unicode字符; 我们使用样本softmax技术使大词汇量的训练变得可行( )。 但是,我们使用围绕目标单词的单词窗口作为否定样本,并且在我们的初步实验中显示出更好的性能。 在NVIDIA P100 GPU上,用一种语言进行ELMo的培训大约需要3天。 资料下载 这些模型托管在。 ELMo简体中文 我们还提供了 。 它是针对新华比例进行培训的,这与传统中文ELMo的维基百科不同。 前提条件 必须是python> = 3.6(如果使用python3.5,则会遇到此问题 ) 火炬0.4 来自allennlp的其他要求 用法 安装套件 您需要安装软件包才能使用嵌入功能,并具有以下建议 python setup.py install
1