自然语言预处理(NLPre) 主要版本更新! NLPre 2.0.0 后端NLP引擎pattern.en已被spaCy v 2.1.0取代。 这是针对pattern.en某些问题(包括不良lemmatization)的主要解决方案。 (例如,细胞因子->细胞牛) 对python 2的支持已被删除 在replace_from_dictionary支持自定义词典 在replace_from_dictionary使用后缀而不是前缀的选项 URL替换现在可以删除电子邮件 token_replacement可以删除符号 NLPre是一个文本(预处理)库,可帮助消除实际数据中发现的某些不一致之处。 纠
1
伯特 ***** 2020年3月11日新产品:更小的BERT模型***** 此版本发行了24个较小的BERT模型(仅限英语,无大小写,使用WordPiece掩码进行了培训),在读物精通的 。 我们已经证明,除了BERT-Base和BERT-Large之外,标准BERT配方(包括模型体系结构和训练目标)对多种模型尺寸均有效。 较小的BERT模型适用于计算资源有限的环境。 可以按照与原始BERT模型相同的方式对它们进行微调。 但是,它们在知识提炼的情况下最有效,在这种情况下,微调标签是由更大,更准确的老师制作的。 我们的目标是允许在计算资源较少的机构中进行研究,并鼓励社区寻找替代增加模型容量的创新方向。 您可以从 下载全部24个,也可以从下表单独下载: 高= 128 高= 256 高= 512 高= 768 L = 2 L = 4 L = 6 L = 8 L = 10 L = 12 请注意,此版本中包含的BERT-Base模型仅出于完整性考虑; 在与原始模型相同的条件下进行了重新训练。 这是测试集上相应的GLUE分数: 模型 得分 可乐 SST-2 MR
2021-11-08 15:02:52 106KB nlp natural-language-processing google tensorflow
1
文字傻瓜 自然语言对文本分类和推理的攻击模型 这是该论文的源代码: 。 如果使用代码,请引用以下文章: @article{jin2019bert, title={Is BERT Really Robust? Natural Language Attack on Text Classification and Entailment}, author={Jin, Di and Jin, Zhijing and Zhou, Joey Tianyi and Szolovits, Peter}, journal={arXiv preprint arXiv:1907.11932}, year={2019} } 数据 我们的7个数据集在。 先决条件: 所需的软件包在requirements.txt文件中列出: pip install requirements.txt 如何使用
1
FinBERT-QA:使用 BERT 回答金融问题 FinBERT-QA 是一个问答系统,用于从数据集的任务 2 中检索有金融段落。 请参阅获取更多信息。 该系统使用来自信息检索和自然语言处理的技术,首先使用 Lucene 工具包检索每个查询的前 50 个候选答案,然后使用预训练的模型的变新排列候选答案。 FinBERT-QA 从 Huggingface 的库构建并应用 Transfer and Adapt [ ] 方法,首先将预训练的 BERT 模型转移并微调到一般 QA 任务,然后使用 FiQA 数据集将该模型适应金融领域。 转移步骤在的数据集上使用微调的 BERT 模型 ,它从 TensorFlow 转换为 PyTorch 模型。 在三个排名评估指标(nDCG、MRR、Precision)上结果平均提高了约 20%。 Overview of the QA pipeline:
1
| 本项目提供了针对中文的XLNet预训练模型,扩展了丰富的自然语言处理资源,提供多种中文预训练模型选择。我们欢迎各位专家学者下载使用,并共同促进和发展中文资源建设。 本项目基于CMU /谷歌官方的XLNet: : 其他相关资源: MacBERT预训练模型: : 中文ELECTRA预训练模型: : 中文BERT-wwm预训练模型: : 知识蒸馏工具TextBrewer: : 查看更多哈工大讯飞联合实验室(HFL)发布的资源: : 新闻 2021年1月27日所有模型已支持TensorFlow 2,请通过变压器库进行调用或下载。 2020/9/15我们的论文被录用为长文。 2020/8/27哈工大讯飞联合实验室在通用自然语言理解评论GLUE中荣登榜首,查看,。 2020/3/11为了更好地了解需求,邀请您填写,刹车为大家提供更好的资源。 2020/2/26哈工大讯飞联合实验室发布 历史新闻2019/12/19本目录发布的模型已接受[Huggingface-Transformers]( ) 2019/9/5 XLNet-base已可下载,查看 2019/8/1
1
基准短语提取基准数据集 该存储库包含大量精选的基准数据集,用于评估自动关键词提取算法。 这些数据集均使用Stanford CoreNLP套件进行了预处理,并以XML格式提供。 数据集格式 所有数据集均按照以下通用结构存储: dataset/ /test/ <- test documents /train/ <- training documents (if available) /dev/ <- validation documents (if available) /src/ <- e
1
伦敦 使用Python和GraphX的Spark中的身份图。 参考 指示 创建虚拟环境 virtualenv -p python3 .env source .env/bin/activate pip install -r requirements.txt 构建Docker映像 ./bin/build.sh slave ./bin/build.sh master ./bin/build.sh zoo ./bin/build.sh network 运行Docker容器 ./bin/start.sh slave ./bin/start.sh master ./bin/start.sh zoo 使用Hadoop集群UI 访问http://0.0.0.0:8088/cluster 。 监控Docker容器 ./bin/status.sh 停止Docker容器 ./bin/stop.sh slave
2021-10-31 20:04:26 694KB python nlp docker natural-language-processing
1
Natural Language Processing with PyTorch by Brian McMahan, Delip Rao Publisher: O'Reilly Media, Inc. Release Date: February 2019
2021-10-29 11:09:48 4.84MB NLP NL
1
Hands-On_Natural_Language_Processing_with_Python 2018 a lot of examples
2021-10-27 00:47:56 18.33MB 自然预言处理 nlp deep learnin
1
NGBoost:用于概率预测的自然梯度提升 ngboost是一个Python库,实现了“自然梯度增强”,如。 它建立在,旨在针对适当的评分规则,分布和基础学习者的选择进行扩展和模块化。 在此可以对NGBoost的基本方法进行详尽的介绍。 安装 via pip pip install --upgrade ngboost via conda-forge conda install -c conda-forge ngboost 用法 波士顿住房数据集上的概率回归示例: from ngboost import NGBRegressor from sklearn . datasets import load_boston from sklearn . model_selection import train_test_split from sklearn . metrics import mean_squared_error X , Y = load_boston ( True ) X_train , X_test , Y_train , Y_test = train_test_split
1