twitter_sentiment_bert_scikit Twitter美国航空数据集情感分析(情感分析),使用Bert句子编码作为特征,实现了SVM,XGBoost,RandomForest(随机森林)等多个分类算法,从而进行了交叉验证。 数据来自 预安装 我们在Python 3环境中运行该项目,建议您使用Anaconda 3通过以下脚本安装所需的软件包。 当然,您可以使用pip进行安装。 conda create -n tweet_sentiment -c anaconda python=3.7 numpy scikit-learn xgboost pandas tensorflo
1
OmniNet:用于多模式多任务学习的统一架构 OmniNet是用于多模式多任务学习的Transformer体系结构的统一和扩展版本。 单个OmniNet体系结构可以对几乎任何现实领域(文本,图像,视频)的多个输入进行编码,并能够跨多种任务进行异步多任务学习。 OmniNet体系结构包含多个称为神经外围设备的子网,用于将特定于域的输入编码为时空表示形式,并连接到称为中央神经处理器(CNP)的通用中央神经网络。 CNP实现了基于变压器的通用时空编码器和多任务解码器。 该存储库包含用于的官方Pytorch实施(Pramanik等)。 本文演示了OmniNet的一个实例,该实例经过联合训练以执行
2023-04-11 15:36:51 17.41MB nlp machine-learning deep-learning neural-network
1
doc2vec 该存储库包含Python脚本,用于使用训练doc2vec模型。 有关doc2vec算法的详细信息,请参见论文。 创建一个DeWiki数据集 Doc2vec是一种无监督的学习算法,并且可以使用任何文档集来训练模型。 文档可以是简短的140个字符的推文,单个段落(如文章摘要,新闻文章或书籍)中的任何内容。 对于德国人来说,一个好的基线是使用训练模型。 下载最新的DeWiki转储: wget http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 提取内容: wget http://medialab.di.unipi.it/Project/SemaWiki/Tools/WikiExtractor.py python WikiExtractor.py -c -b 2
2023-02-22 15:58:08 199KB nlp machine-learning word2vec doc2vec
1
Yelp分析和评级预测 概述 Yelp是一个带有社交网络工具的区域目录平台和审阅网站。 该网站提供了针对本地企业(水疗中心,餐厅,百货公司,酒吧,本地本地服务,商店,汽车)的众包评论。 这有助于用户进行业务评级和评论。 通常,评论是由几百行左右的单词组成的简短文本,描述了各个方面的各种用户体验。 这为企业所有者提供了改进产品的机会,并使客户可以选择最佳的行业。 商业价值/分析目标 管理层可能没有足够的时间来进行每一次审核。 如果可以一目了然地向他们提供有价值的信息和见解,那将是非常有用和节省时间的。 不仅对于管理人员,而且对于试图了解更多餐厅信息并需要一些帮助来订购或选择餐厅的客户,也是如此。 毕竟,在当今世界,每个人都喜欢在做出决定之前先阅读评论和反馈。 在我们的项目中,我们使用自然语言处理和机器学习来实现这些业务和客户目标。 我们专注于情感分析,主题建模,数据分析和评级预测的分类。 数
2023-01-29 20:44:46 2.59MB nlp machine-learning text-analytics yelp-dataset
1
ner_crf ner_crf是Jupyter笔记本,它使用 / 实现,使用条件随机字段(CRF)描述了命名实体识别(NER)。 依存关系 ner_crf用编写,因此在使用python3之前应下载最新版本的python3 。 可以从找到python的下载(建议使用3.5.1版)。 您还需要能够运行Jupyter Notebook(请参阅 )。 还需要以下python库来运行ner_crf笔记本:
2022-12-12 20:26:51 961KB python nlp machine-learning crf
1
FakeNewsCorpus:从精选的数据源列表中抓取的数百万条新闻报道的数据集
1
恢复上升 简历解析器和摘要器工具可对简历进行分类,并根据用户要求对简历进行排名。 数据集 包含1000个以csv格式标记的简历(根据特定简历所属的主要类别/类别进行标记)。 我们将使用此csv格式的简历数据集来训练我们的模型以进行分类。 然后,我们的模型应该能够处理任何看不见的简历。 参考文件: Utils / Analysis.ipynb :数据清理+预处理+可视化+见解 Utils / Summarize.ipynb :恢复汇总算法 Utils / pdftotext.ipynb :使用pdfminer将odf转换为文本 Utils / Modelling.ipynb :主文件+代表性更改+培训+模型比较+测试 Utils / naive_bayes.ipynb :多项朴素贝叶斯实现 Utils / svm.ipynb :svm实现 Utils / clean_data1.csv :
2022-10-05 15:44:09 8.42MB nlp machine-learning ocr nltk
1
SpaCy官方中文模型已经上线( ),本项目『推动SpaCy中文模型开发』的任务已经完成,本项目将进入维护状态,后续更新将只进行bug修复,感谢各位用户长期的关注和支持。 SpaCy中文模型 为SpaCy提供的中文数据模型。模型目前还处于beta公开测试的状态。 在线演示 基于Jupyter notebook的在线演示在 。 特性 部分王小明在北京的清华大学读书这个Doc对象的属性信息: NER(新! ) 部分王小明在北京的清华大学读书这个Doc对象的NER信息: 开始使用 SpaCy(版本> 2)的基础知识。 系统要求 Python 3(也许支持python2,但未通过良好测试) 安装 下载模型 从页面下载模型( New!为中国地区的用户提供了加速下载的链接)。假设所下载的模型称为zh_core_web_sm-2.xxtar.gz 。 安装模型 pip install zh_core_web_sm-2.x.x.tar.gz 为了方便后续在Rasa NLU等框架中使用,需要再为这个模型建立一个链接,通过执行以下命令: spacy link zh_core_web_sm zh 运行完
1
[ACL 2020]对话式讲故事:地牢和龙的数据集的关键作用 总览 本文描述了《地牢与龙》的关键角色数据集(CRD3)及其相关分析。 关键角色(Critical Role)是一个无脚本的现场直播节目,固定人群在其中玩开放式角色扮演游戏《龙与地下城》。 该数据集是从159个关键角色情节中收集的,这些情节被转录为文本对话,包括398,682个回合。 它还包括从Fandom Wiki收集的相应抽象摘要。 该数据集在语言上是独一无二的,因为叙述完全是通过玩家的协作和口头互动来产生的。 对于每个对话,都有大量的转弯,详细程度各不相同的多个抽象摘要以及与先前对话的语义联系。 此外,我们提供了一种数据增强方
2022-07-12 04:34:05 280.59MB nlp machine-learning storytelling dataset
1
SMS_Spam_Classifier:垃圾邮件分类器
2022-05-16 11:54:01 208KB nlp-machine-learning Python
1