书籍描述: 使用Python使用问题解决方法实现自然语言处理应用程序。这本书有许多编码练习,将帮助您快速部署自然语言处理技术,如文本分类、部分语音识别、主题建模、文本摘要、文本生成、实体提取和情感分析。 自然语言处理配方首先提供清洗和预处理文本数据的解决方案,以及使用高级算法分析文本数据的方法。您将看到文本语义和句法分析的实际应用,以及涉及文本规范化、高级预处理、pos标记和情感分析的复杂自然语言处理方法。您还将学习机器学习和自然语言处理中的深度学习的各种应用。 通过使用本书中的配方,您将拥有一个解决方案工具箱,可以应用于现实世界中您自己的项目,使您的开发时间更快、更高效。
2021-05-12 19:25:44 9.9MB NLP 自然语言处理 Apress
1
AG新闻分类使用机器学习 新闻分类数据集数据源: : 客观的 新闻分类数据集由“世界”,“体育”,“商业”和“科学”类别的新闻文章组成 给定标题和描述,我们必须确定它属于哪个新闻文章类别。 机器学习问题的类型: 我们必须根据给定的信息预测新闻报道,因此它是多类分类问题 基本概述 数据形状:Train.csv + Test.csv = 120000 + 7600 = 127600行。 Data.columns:类索引,标题,描述 Data.info():独立:标题,描述--->对象,从属:类标签-> Int64 机器学习问题的类型 绩效指标 由于这是多类分类问题,因此我们将使用: 1:多类混淆矩阵 2:精确,调出,F1-Score 3:准确性得分,错误得分 解决新闻分类问题的步骤: 第1部分 1:加载数据集----> .csv格式 2:执行探索性数据分析: a] Check
1
语音情感分析仪 基于长期短期记忆(LSTM)网络的语音情感分析器。 该模型可以有效地分析愤怒,厌恶,恐惧,幸福,中立,悲伤和惊奇的7种基本情绪。 在多伦多情感言语集(TESS)数据集上进行了培训。 这对模型的可推广性造成了一些固有的限制。 由于TESS目前只有两名女性配音演员,并且在录音室中进行录制,因此该模型无法与直接制作相提并论。 该代码在jupyternotebook文件中,并且记录充分。
1
BERTScore 论文(ICLR 2020)中介绍了自动评估指标。 新闻: 更新至版本0.3.7 与Huggingface的变压器版本> = 4.0.0兼容。 感谢公共贡献者( , , )。 如果您想在COCO字幕数据集上复制我们的实验,请参见 。 更新至版本0.3.6 支持自定义基准文件 选项--rescale-with-baseline更改为--rescale_with_baseline以便与其他选项一致。 更新至版本0.3.5 与Huggingface的变形金刚> = v3.0.0和次要修复程序( , , )兼容 与效率相关的几项改进( , ) 更新至版本0.3.4 立即与变形金刚v2.11.0兼容(#58) 对于中国人来说,下载预先训练的体重可能很慢。 我们在百度盘上提供了一些模型的副本。 密码:dhe5 密码:jvk7 cased密码:yx3q 库在其度量标准集合中包括BERTScore。 更新至版本0.3.3 使用空字符串修复错误。 支持6种模型和24种较小的模型。 新增了一个用于保持WMT16英制上不同模型的性能(即
1
网络视觉 NeAt(Neural Attention)Vision是一种可视化工具,用于自然语言处理(NLP)任务的深度学习模型的注意力机制。 产品特点 可视化注意力得分,有很多选择。 将可视化文件导出为SVG格式。 如果要在学术论文中使用可视化效果,这将非常方便。 但是,您可能必须将SVG转换为PDF。 可视化模型预测。 显示类的后验分布,回归任务中的错误等。 对于调试模型和检查其行为很有用。 支持分类,多标签分类和回归。 进行了整齐的可视化,以可视化自然语言处理(任务)任务的注意机制的权重。 目前,整洁的视觉只支持可视化的自我注意机制,在句子级别上执行以下任务: 回归:预测单个连
2021-05-04 19:04:07 13.58MB visualization nlp natural-language-processing vuejs
1
通过患者健康问卷9和自然语言处理对抑郁症进行分析
1
抑郁症被认为是造成全球残疾的最大原因,也是自杀的主要原因。 它会影响书面文本中反映的语言使用情况。 我们研究的主要目标是检查Reddit用户的帖子,以发现任何可能揭示相关在线用户的抑郁态度的因素。 为此,我们采用自然语言处理(NLP)技术和机器学习方法来训练数据并评估我们提出的方法的效率。 我们确定在沮丧帐户中更常见的术语词典。 结果表明,我们提出的方法可以显着提高性能精度。 最好的单一功能是使用支持向量机(SVM)分类器的双字母组,可以以80%的准确度和0.80 F1的分数检测抑郁症。 多层感知器(MLP)分类器最成功地证明了组合特征(LIWC + LDA + bigram)的强度和有效性,从而使抑郁症检测的顶级性能达到91%的准确度和0.93 F1分数。 根据我们的研究,可以通过选择适当的特征及其多个特征组合来实现更好的性能改进。
2021-04-28 17:58:34 3.5MB Natural language processing; machine
1
OntoNotes-5.0-NER-BIO 这是CoNLL-2003格式的版本,带有OntoNotes 5.0版本NER的BIO标记方案。 此格式化的版本基于的说明以及在此存储库中创建的新脚本。 简单地说,名为“(Yuchen Zhang,Zhi Zhong,CoNLL 2013),提出了针对OntoNotes 5.0数据的Train-dev-split,并提供了将其转换为CoNLL 2012格式的脚本。 但是,结果不在BIO标记方案中,不能直接用于许多序列标记体系结构中,例如BLSTM-CRF。 此回购协议通过直接生成BIO格式简化了预处理,您可以在实验中使用它们。 步骤1:获取官方的O
1
MAMS for ABSA 此存储库包含论文“ EMCLP-IJCNLP 2019, 挑战数据集和基于方面的情感分析的有效模型”的数据和代码。 彩信 MAMS是用于基于方面的情感分析(ABSA)的挑战数据集,其中每个句子包含至少两个具有不同情感极性的方面。 MAMS数据集包含两个版本:一个用于方面术语情感分析(ATSA),另一个用于方面类别情感分析(ACSA)。 要求 pytorch==1.1.0 spacy==2.1.8 pytorch-pretrained-bert==0.6.2 adabound==0.0.5 pyyaml==5.1.2 numpy==1.17.2 scikit-learn==0.21.3 scipy==1.3.1 快速开始 将经过预训练的GloVe( )文件glove.840B.300d.txt放在./data文件夹中。 修改config.py以选择任务,模型和
1
ln2sql ln2sql是使用自然语言查询数据库的NLP工具。 该工具接受输入的数据库模型和句子,然后将其转换为能够查询输入数据模型的有效SQL语句。 科学论文 以下法语文件(可在docs/目录中找到)对初始工具进行了描述: 如果使用ln2sql,请引用该论文。 本文版本(fr2sql)和此版本(ln2sql)之间的差异 出于版权考虑,ln2sql不是最新的工具。 它只是一个快速而肮脏的Python包装器,但具有一些速度优化。 在本文中, 用于根据其POS标记过滤输入句子的单词。 以此方式,可以执行输入句子的关键字与数据模型的关键字之间的映射。 在ln2sql中,T
1