双项主题模型 此程序包实现了由,兰介绍的短文本的。 它包括BTM模型的两种实现:cythonized)1 由小慧严,2)优化和cythonized 通过 。 它还能够计算困惑和语义一致性度量。 要求 赛顿 NumPy 大熊猫 科学 Scikit学习 pyLDAvis(可选) 设置 您可以从PyPi安装软件包: pip install bitermplus 或从此回购中: pip install git+https://github.com/maximtrp/bitermplus.git 例子 import bitermplus as btm import numpy as np from gzip import open as gzip_open # Importing and vectorizing text data with gzip_open ( 'dataset/Sea
1
自然语言处理与灾难鸣叫Kaggle
2021-12-12 20:00:47 32KB JupyterNotebook
1
半监督序列学习 此回购记录了重现论文给出的结果的实验​​。 简而言之,我们在未标记的文本数据上对序列自动编码器或语言模型进行预训练,然后使用标记的文本数据对使用预训练权重初始化的基于RNN的序列分类器进行微调,与随机初始化的权重相比,分类精度更高。 资料准备 IMDB数据集 我们为此实验使用。 下载并解压缩,导航至目录aclImdb/train ,该目录aclImdb/train中包含带aclImdb/train/pos的正( aclImdb/train/pos )和带标签的负性( aclImdb/train/neg )以及未标签的评论( aclImdb/train/unsup )。 然后cd进入每个子目录并运行 for f in *.txt; do (cat "${f}"; echo) >> pos.txt; done for f in *.txt; do (cat "${f}"; ec
1
textacy:NLP,spaCy之前和之后 textacy是一个基于高性能spaCy库的Python库,用于执行各种自然语言处理(NLP)任务。 通过将基础知识-令牌化,词性标记,依赖项解析等-委托给另一个库, textacy主要关注于之前和之后的任务。 产品特点 通过用于处理一个或多个文档的便捷方法访问spaCy,并通过自定义扩展名和自动语言识别扩展其功能,从而为文本应用正确的spaCy管道 下载包含文本内容和元数据的数据集,从国会演讲到历史文献再到Reddit评论 轻松以多种常用格式在磁盘之间传输数据 清理,规范化和浏览原始文本-在使用spaCy处理之前 灵活地从处理过的文档中提取单词,n-gram,名词块,实体,首字母缩写词,关键词和其他感兴趣的元素 通过各种相似性指标比较字符串,集合和文档 对文档进行标记和向量化,然后训练,解释和可视化主题模型 计算各种文本可读性统计信息,包括Flesch-Kincaid等级水平,SMOG索引和多语种Flesch Reading Ease ...还有更多! 链接 下载: : 文档: : 源代码: : 错误跟踪程序: : 维
2021-12-09 11:59:06 312KB python nlp natural-language-processing spacy
1
机器学习支持的虚假新闻检测器 从初始构想到部署,构建端到端机器学习项目的完整示例。 此回购随附于博客文章系列,描述了如何构建假新闻检测应用程序。 这里包含的帖子: :描述项目构想,设置存储库和初始项目工具。 :描述如何使用工具获取数据集并执行探索性数据分析,以便更好地理解问题。 :描述如何为第一个ML模型(随机森林分类器)获得功能训练/评估管道,包括如何正确测试管道的各个部分。 :描述如何解释通过特征分析(通过诸如类的技术)和错误分析所学的第一个模型。 也可用于由驱动的第二个模型。 :描述如何使用和部署模型以及构建随附的Chrome扩展程序。 还说明了用于以可伸缩和可复制的方式在应
1
语音情感分析器:神经网络模型能够从音频语音中检测出五种不同的男女情感。 (深度学习,NLP,Python)
1
ecco:可视化和探索NLP语言模型。 Ecco直接在Jupyter笔记本中创建交互式可视化文件,解释基于Transformer的语言模型(例如GPT2)的行为
1
会话中很棒的情感识别 有关与会话中的情感识别(ERC),上下文情感/情感/讽刺分析或语用学的共同分类(如会话中的对话行为)相关的论文的综合阅读清单。 如果列表中缺少任何新的或现有的纸张,请随时发送PR。 什么是ERC? ERC是一项旨在预测对话中每种话语的情感的任务。 以下是一段对话的摘录,其中每种话语都标有相应的情感和情感标签: 概观 ,IEEE情感计算2020交易 ,IEEE Access 2019 资料资源 ,COLING 2020 ,ACL 2020 ,IEEE Access 2020 ,Arxiv 2020 ,LREC 2020 ,ACL 2019 ,ACL 2019 人类行为计算机2019 ,LREC 2018 DailyDialog:手动标记的多回合对话数据集,AFNLP 2017 semaine数据库:人与有限代理之间带有情感色彩的对话的带注释的多
1
emoji_predictor 包含各种nlp方法来预测表情符号
1
在5秒钟内克隆语音以实时生成任意语音实时语音克隆此存储库是从语音验证到语音识别的多人语音合成语音学习(SV2TTS)的转移学习的一种实现,该声码器可以实时工作。 如果您好奇或正在寻找我未记录的信息,请随时检查我的论文。 通常,我建议您快速浏览一下引言之外的数字。 SV2TTS是一个三阶段的深度学习框架,允许从少数几个创建语音的数字表示
2021-12-03 10:26:57 200KB Python Natural Language Processing
1