伯特比 BERTopic是一种利用主题建模技术 :hugging_face: 转换程序和c-TF-IDF创建密集的群集,使主题易于理解,同时在主题描述中保留重要字词。 它甚至支持类似于LDAvis的可视化! 相应的媒体帖子可以在找到。 安装 可以使用完成安装: pip install bertopic 要使用可视化选项,请按照以下步骤安装BERTopic: pip install bertopic[visualization] 安装错误推荐使用PyTorch 1.4.0或更高版本。 如果安装出现错误,请首先安装pytorch。 入门 要详细了解BERTopic的功能,您可以在查看完整的文档也可以Google Colab笔记本。 快速开始 我们首先从著名的20个新闻组数据集中提取主题,该数据组由英文文档组成: from bertopic import BERTopic from sklearn . datasets import fetch_20newsgroups docs = fetch_20newsgroups ( subset = 'all' , remove
2021-12-14 20:36:41 2.73MB nlp machine-learning topic transformers
1
恶毒的 基于实体级别F1分数的命名实体识别(NER)系统的评估脚本。 定义 Nadeau和Sekine(2007)已描述了此处实施的度量标准,该度量标准已广泛用作“消息理解会议”的一部分(Grishman和Sundheim,1996)。 它根据两个轴评估NER系统:是否能够为实体分配正确的类型,以及是否找到确切的实体边界。 对于两个轴,都计算正确的预测数(COR),实际的预测数(ACT)和可能的预测数(POS)。 从这些统计数据中,可以得出准确性和召回率: precision = COR/ACT recall = COR/POS 最终得分是对类型和边界轴的精度和召回率进行微平均的F1度量。 安装 pip install nereval 用法 当分类结果已写入JSON文件时,可以从Python内部使用此脚本,也可以从命令行使用该脚本。 从命令行使用 假设我们在input.json具有以下
1
关于 在当今以短消息和推文为交流核心的世界中,表情符号已成为表达思想和情感的主要形式。 它们突破了语言障碍,使人们可以非常简洁地表达全部内容。 随着表情符号在日常生活中的使用越来越多,有时我们会失去文本的上下文,并不确定是否要根据文本使用哪种表情符号。 我们的项目旨在通过分析给定文本的情绪并预测与之相关的表情符号,根据给定的文字建议表情符号。 要求 Python> = 3 NLTK> = 3.2.3 凯拉斯> = 2.0.7 词嵌入 下载 将它们放在src文件夹中 使用方法 朴素贝叶斯分类器( nb ) 决策树分类器( dtc ) LSTM( lstm ) 双向LSTM( blst
2021-12-03 15:35:16 1.9MB python emoji nlp machine-learning
1
蒙古BERT型号 该存储库包含由 , 和训练的经过预训练的蒙古模型。 特别感谢提供了5个TPU。 该存储库基于以下开源项目: ,和 。 楷模 词汇量为32000的用作文本标记器。 您可以使用蒙版语言模型笔记本 测试经过预训练的模型可以预测蒙面蒙语单词的效果如何。 BERT-Base: 和 BERT-Large: HuggingFace 未装箱的BERT-Base: TensorFlow检查点和PyTorch模型 未装箱的BERT-Large: HuggingFace 盒装BERT-Base 下载TensorFlow检查点或PyTorch模型。 评估结果: global_step = 4000000 loss = 1.3476765 masked_lm_accuracy = 0.7069192 masked_lm_loss = 1.2822781 next_sentence_a
1
使用Python从头开始构建简单的聊天机器人(使用NLTK) 聊天机器人的历史可以追溯到1966年,当时Weizenbaum发明了一种名为ELIZA的计算机程序。 它仅从200行代码中模仿了心理治疗师的语言。 您仍然可以在这里与之交谈: 。 同样,让我们​​创建一个使用Python的NLTK库的非常基本的聊天机器人。这是一个非常简单的机器人,几乎没有任何认知技能,但是仍然是进入NLP并了解聊天机器人的好方法。 大纲 动机 这个项目的想法不是要创建具有出色认知技能的SOTA聊天机器人,而只是要利用和测试我的Python技能。这是我刚进入NLP领域并想到创建一个最初的项目之一一个简单的聊天机
2021-11-01 16:33:54 14KB python nlp machine-learning article
1
Sentiment_analysis_twitter 总览 分析表情符号在改善情感分析结果中的作用。 使用Twitter StreamAPI收集Twitter数据,并使用TF-IDF对推文进行矢量化处理。 使用矩阵创建一个正向和负向矢量,并使用余弦相似度来确定给定推文为正或负的程度。 通过转换unicode将Emoji表情合并到推文中,并重复该过程。 将过程分类提高了15%。 动机 了解人类的情感和理智向来是我的痴迷。 借助我的数据科学技能,我想了解人们如何在社交网络上表达情感,也就是情感分析。 作为一个狂热的Twitter用户,我知道限制少于140个字符如何迫使人们进行创新,以及表情符号如何
2021-10-30 10:41:59 34.11MB emoji nlp machine-learning tweets
1
俄语中的推文情感分析:使用带有Word2Vec嵌入的卷积神经网络(CNN),对俄语中的推文进行情感分析
2021-10-19 17:42:54 449KB nlp machine-learning tweets sentiment-analysis
1
文本分割作为监督学习任务 该存储库包含代码和补充材料,这些信息和补充材料是训练和评估模型所必需的,如论文“将 Downalod所需资源 wiki-727K,wiki-50数据集: word2vec: 在configgenerator.py中填充相关路径,并执行脚本(git存储库包括Choi数据集) 创建环境: conda create -n textseg python=2.7 numpy scipy gensim ipython source activate textseg pip install http://download.pytorch.org/whl/cu80/torch
2021-10-14 10:06:22 5.05MB nlp machine-learning deep-learning neural-network
1
TensorFlow 2.0教程 我们的回购。 是的赢家 。 时间线: 2019年10月1日:TensorFlow 2.0稳定! 2019年8月24日: 2019年6月8日: 2019年3月7日: 2019年1月11日: 2018年8月14日: 安装 确保您使用的是python3.x。 CPU安装 pip install tensorflow - U GPU安装 自己安装CUDA 10.0 (或cudnn )和cudnn 。 并设置LD_LIBRARY_PATH 。 pip install tensorflow - gpu - U 测试安装: In [ 2 ]: import tensorflow as tf In [ 3 ]: tf . __version__ Out [ 3 ]: '2.0.0' In [ 4 ]: tf . test . is_gpu_available () ... totalMemory : 3.95 GiB freeMemory : 3.00 GiB ... Out [ 4 ]: True 配套TF2视频教程 TensorFl
1