ecco:可视化和探索NLP语言模型。 Ecco直接在Jupyter笔记本中创建交互式可视化文件,解释基于Transformer的语言模型(例如GPT2)的行为
1
会话中很棒的情感识别 有关与会话中的情感识别(ERC),上下文情感/情感/讽刺分析或语用学的共同分类(如会话中的对话行为)相关的论文的综合阅读清单。 如果列表中缺少任何新的或现有的纸张,请随时发送PR。 什么是ERC? ERC是一项旨在预测对话中每种话语的情感的任务。 以下是一段对话的摘录,其中每种话语都标有相应的情感和情感标签: 概观 ,IEEE情感计算2020交易 ,IEEE Access 2019 资料资源 ,COLING 2020 ,ACL 2020 ,IEEE Access 2020 ,Arxiv 2020 ,LREC 2020 ,ACL 2019 ,ACL 2019 人类行为计算机2019 ,LREC 2018 DailyDialog:手动标记的多回合对话数据集,AFNLP 2017 semaine数据库:人与有限代理之间带有情感色彩的对话的带注释的多
1
emoji_predictor 包含各种nlp方法来预测表情符号
1
在5秒钟内克隆语音以实时生成任意语音实时语音克隆此存储库是从语音验证到语音识别的多人语音合成语音学习(SV2TTS)的转移学习的一种实现,该声码器可以实时工作。 如果您好奇或正在寻找我未记录的信息,请随时检查我的论文。 通常,我建议您快速浏览一下引言之外的数字。 SV2TTS是一个三阶段的深度学习框架,允许从少数几个创建语音的数字表示
2021-12-03 10:26:57 200KB Python Natural Language Processing
1
本书提供了对自然语言处理的高度可理解的介绍,自然语言处理是支持各种语言技术的领域,从预测性文本和电子邮件过滤到自动摘要和翻译。
2021-12-01 13:38:28 81B 计算机科学
1
pr 用Rust编写的快速,资源少的自然语言处理和错误纠正库。 nlprule使用资源为NLP实现了基于规则和查找的方法。 from nlprule import Tokenizer , Rules tokenizer = Tokenizer . load ( "en" ) rules = Rules . load ( "en" , tokenizer ) rules . correct ( "He wants that you send him an email." ) # returns: 'He wants you to send him an email.' rules . correct ( "I can due his homework." ) # returns: 'I can do his homework.' for s in rules . suggest ( "S
1
TextAttack是一个Python框架,用于对NLP模型进行对抗性攻击。 TextAttack从四个组件构建攻击:搜索方法,目标函数,转换和约束集。 TextAttack的模块化设计使其可以轻松扩展到新的NLP任务,模型和攻击策略。 TextAttack:octopus:为NLP模型生成对抗性示例文档•关于•设置•用法•设计关于TextAttack是一个Python框架,用于对NLP模型进行对抗性攻击。 TextAttack从四个组件构建攻击:搜索方法,目标函数,转换和约束集。 TextAttack的模块化设计使其可以轻松扩展到新的NLP任务,模型和攻击策略。 TextAttack当前支持对经过分类训练的模型的攻击
2021-11-29 09:10:55 5.54MB Python Natural Language Processing
1
科学引文知识提取器(SCKE) 关于SCKE SCKE是一个开放源代码工具,可通过分析引用他们的论文内容,帮助生物医学研究人员了解他人如何使用他们的工作。 该工具使用自然语言处理和机器学习来提取引用文档中讨论的突出主题和概念。 通过查看引用文章讨论的主题类型,研究人员可以更好地了解他们的工作如何影响同龄人和科学的各个学科。 此外,SCKE允许生物医学研究人员探索有关引用它们的出版物的其他统计数据,例如引文的发表位置(期刊),关键字的分布(关键字),论文彼此的相似性(聚类),论文的相似性其他著名作品(TextCompare)以及有关引文的一般统计信息(Statistics)。 使用Biopy
1
MultiWOZ 多域绿野仙踪数据集(MultiWOZ),是跨多个领域和主题的全人类书面对话的完整标签集合。 对话的大小为1万个,比以前所有带注释的面向任务的语料库大至少一个数量级。 感谢在上提供了最新的,经过纠正的数据集版本。 可在上获得新的,更正后的数据集版本。 可在以下访问EMNLP出版物中使用的数据集: 可在以下位置访问ACL发布中使用的数据集: 数据结构 如果该域允许,则包含3406个单域对话(包括预订),以及包含至少2个(最多5个域)的7,032个多域对话。 为了增强结果的可重复性,将语料库随机分为训练,测试和开发集。 测试和开发集各包含1k个示例。 即使所有对话都是连贯的,但其中一些对话并未按照任务描述来完成。 因此,验证和测试集仅包含完全成功的对话,因此可以对模型进行公平的比较。 在验证和测试集中没有来自医院和警察领域的对话。 每个对话都包含一个目标,多个用
1