SMS_Spam_Classifier:垃圾邮件分类器
2022-05-16 11:54:01 208KB nlp-machine-learning Python
1
幽默语料库 网站的存储库 批注工具以及提取和分析脚本在存储库中可用。
2022-04-24 13:36:33 7.58MB nlp machine-learning humor corpus
1
快乐变形金刚 Happy Transformer是基于构建的软件包,可轻松利用最新的NLP模型。 目录 新闻: 2021年1月12日 即将推出2.0.0版! 我们从头开始完全重新设计了Happy Transformer。 新的功能: 问答训练 多标签文字分类训练 文本分类的单一预测 不推荐使用的功能: 掩蔽词预测训练 具有多个遮罩的遮罩字预测 重大更改: 一切 Happy Transformer已经过重新设计,以提高可伸缩性。 现在,添加新模型和功能比以往任何时候都容易,并且我们鼓励您创建PR来为该项目做出贡献。 2020年11月23日 上个月,Happy Transformer在名
2022-04-06 14:51:22 40KB nlp machine-learning ai artificial-intelligence
1
问题生成:使用机器学习从文本生成多项选择题
2022-03-23 14:35:54 423KB nlp machine-learning ai naive-bayes
1
Twitter情绪分析 这是一种自然语言处理问题,其中通过使用机器学习模型对消极消息中的消极消息进行归类来进行情感分析,以进行分类,文本挖掘,文本分析,数据分析和数据可视化 介绍 如今,自然语言处理(NLP)成为数据科学研究的温床,而NLP的最常见应用之一就是情感分析。 从民意测验到制定完整的营销策略,该领域已完全重塑了企业的运作方式,这就是为什么这是每个数据科学家都必须熟悉的领域。 与一组人手动完成相同任务所需的时间相比,可以在几秒钟内处理成千上万个文本文档的情感(以及其他功能,包括命名实体,主题,主题等)。 我们将按照解决一般情感分析问题所需的一系列步骤进行操作。 我们将从预处理和清理
1
《机器阅读理解:算法与实践》代码 这个代码库提供《机器阅读理解:算法与实践》一书中所有的代码示例。 所有程序基于Python 3。所需要的库文件在requirements.txt中指明。 pip install -r requirements.txt 代码按照章节放置在各个文件夹中。每个程序均可以单独运行,例如: python Chapter_3/3.1.2_CNN_Pooling.py 第六章预训练模型的代码需要安装的大规模模型和代码库均在程序注释中指明。 第七章SDNet的代码统一放置在. 本书的勘误信息在Errata.md中。 更多问题请联系作者朱晨光,邮箱.
1
COMETA:在线医疗实体的语料库 该存储库包含运行我们介绍的基线模型的代码: COMETA: EMNLP 2020社交媒体中医疗实体链接的语料库。 COMETA 是一个实体链接外行医学术语数据集。 它是通过分析 68 个以健康为主题的 subreddits 中四年的内容收集的,并用相应的 SNOMED-CT 实体注释最常见的内容。 每个术语都分配了两个注释:通用 SNOMED-CT 标识符和特定标识符,分别表示术语的字面和上下文含义。 有关语料库的副本,请按照我们上的说明进行操作。 预训练向量 模型 下载链接 Bioreddit-FastText , Bioreddit-BERT 您可以在找到在相同的Bioreddit语料库上针对ELMo,Flair和GloVE训练的载体。 引文 如果您使用我们的语料库或我们的嵌入,请引用: @inproceedings { basaldel
2021-12-30 12:00:01 348KB nlp machine-learning deep-learning transformer
1
团队简介 大家好,我们是金融情报信息决定赛道的葫芦娃团队,本赛题的队伍成员均来自哈工大深圳的人类自然语言技术(HLT)小组,成员包括刘宇瀚,李嘉明,殷熔磾,刘道兴以及袁朝发。指导老师为徐睿峰教授。 方案分享 我们进行以下六点进行介绍 首先是任务简介与数据格式,具体的数据下载详见,也可以data文件夹里面的数据 整个数据存在一下的特征: 我们的整体方案流程如下: 数据集构造部分,我们按照如下形式构造,即内部实体级情感分类任务 数据预先部分我们采用如下操作: 为了更好学习到语料的信息,我们对语言模型在本数据集上又进行一次预训练 之后我们采用
1
Customer_satisfaction_Analysis 结果整合 Demo 演示 基于用户 UGC 的在线民宿满意度挖掘,负责数据采集、主题抽取、情感分析等任务。开发的目的是克服用户打分和评论不一致,实现了在线评论采集和用户满意度分析。 主要功能包括在线原始评论采集、主题聚类、评论情感分析与结果可视化展示等四个模块,如下所示。 提取后的民宿地址和在线评论等信息如下。 搭建了百度地图 POI 查询入口,可以进行自动化的批量查询地理信息。 通过高频词可视化展示,归纳出评论主题。 构建了基于在线民宿语料的 LDA 自动化主题聚类模型,利用主题中心词能找出对应的主题属性字典,并使用用户打分作为标注,然后通过多种分类模型,选用最优模型对提出的评价主体 进行情感分析,针对主题属性表进行主题提取后的文本进行情感分析,分别得出当前主题对应的情感趋势,横坐标为所有关于主题为“环境”的情感得分,纵坐标为
1
双项主题模型 此程序包实现了由,兰介绍的短文本的。 它包括BTM模型的两种实现:cythonized)1 由小慧严,2)优化和cythonized 通过 。 它还能够计算困惑和语义一致性度量。 要求 赛顿 NumPy 大熊猫 科学 Scikit学习 pyLDAvis(可选) 设置 您可以从PyPi安装软件包: pip install bitermplus 或从此回购中: pip install git+https://github.com/maximtrp/bitermplus.git 例子 import bitermplus as btm import numpy as np from gzip import open as gzip_open # Importing and vectorizing text data with gzip_open ( 'dataset/Sea
1