伯特比 BERTopic是一种利用主题建模技术 :hugging_face: 转换程序和c-TF-IDF创建密集的群集,使主题易于理解,同时在主题描述中保留重要字词。 它甚至支持类似于LDAvis的可视化! 相应的媒体帖子可以在找到。 安装 可以使用完成安装: pip install bertopic 要使用可视化选项,请按照以下步骤安装BERTopic: pip install bertopic[visualization] 安装错误推荐使用PyTorch 1.4.0或更高版本。 如果安装出现错误,请首先安装pytorch。 入门 要详细了解BERTopic的功能,您可以在查看完整的文档也可以Google Colab笔记本。 快速开始 我们首先从著名的20个新闻组数据集中提取主题,该数据组由英文文档组成: from bertopic import BERTopic from sklearn . datasets import fetch_20newsgroups docs = fetch_20newsgroups ( subset = 'all' , remove
2021-12-14 20:36:41 2.73MB nlp machine-learning topic transformers
1
A Survey of Visual Transformers 2021.pdf
2021-11-30 09:10:59 4.59MB Transformer综述 论文
1
ALBERT-蒙古语 这个 repo 提供了在蒙古语文本语料库上训练的预训练 ALBERT 模型(BERT 的“A Lite”版本)和 SentencePiece 模型(无监督文本分词器和去分词器)。 内容: 用法 您可以使用库在 PyTorch 和 TensorFlow2.0 中使用 。 import torch from transformers import AlbertTokenizer , AlbertForMaskedLM tokenizer = AlbertTokenizer . from_pretrained ( 'bayartsogt/albert-mongolian' ) model = AlbertForMaskedLM . from_pretrained ( 'bayartsogt/albert-mongolian' ) 教程 [Colab]在 Colab
2021-11-29 20:39:04 186KB transformers language-model albert mongolian
1
他们将 GAN 和卷积方法的效率与转换器的表达能力相结合,为语义引导的高质量图像合成提供了一种强大且省时的方法。
2021-11-25 18:06:41 111.56MB ai 源码 复现 论文
视觉识别的瓶颈变压器 实验 模型 参数(M) 累积(%) ResNet50基线() 23.5百万 93.62 BoTNet-50 1880万 95.11% BoTNet-S1-50 1880万 95.67% 僵尸网络-S1-59 2750万 95.98% BoTNet-S1-77 4490万 ip 概括 用法(示例) 模型 from model import Model model = ResNet50 ( num_classes = 1000 , resolution = ( 224 , 224 )) x = torch . randn ([ 2 , 3 , 224 , 224 ]) print ( model ( x ). size ()) 模块 from model import MHSA resolution = 14 mhsa = MHSA ( plan
1
变形金刚 对VQA任务进行下行趋势化的预训练V + L模型的实现。 现在支持:Linux和上的VisualBERT,LXMERT和 。 笔记: 这只是一个测试版,如果遇到任何错误,请随时提出问题。 我们的实现基于的大型。 如果您采用V + L模型的预训练权重,请考虑引用其原始工作。 如果您发现我们的实施有帮助,请考虑引用以下内容:) @inproceedings{li2020comparison, title={A comparison of pre-trained vision-and-language models for multimodal representation learning across medical images and reports}, author={Li, Yikuan and Wang, Hanyin and Luo, Yuan},
2021-10-27 20:02:52 1.91MB Python
1
speech_transformers语音识别论文项目解释打包
2021-10-25 21:05:55 7.89MB 语音识别
BERT和知识提炼的问题解答 该存储库包含必要的代码,以便微调SQuAD 2.0数据集上的BERT。 此外,的技术是通过微调施加使用BERT作为教师模型小队2.0数据集。 使用Google Colab的1个Tesla V100 GPU获得了所有结果。 1.什么是SQuAD? 斯坦福问答数据集(SQuAD)是一种阅读理解数据集,由人群工作人员在一组Wikipedia文章上提出的问题组成,其中每个问题的答案是对应阅读段落或问题的一段文本或跨度可能无法回答。 SQuAD 2.0将SQuAD 1.1中的100,000个问题与超过50,000个由对抗性工作者对抗性编写的问题相结合,看起来类似于可回答的问题。 为了在SQuAD 2.0上取得出色的成绩,系统不仅必须在可能的情况下回答问题,而且还必须确定该段落何时不支持任何答案并放弃回答。 有关SQuAD数据集和当前排行榜的更多信息,您可以访问以下。
1
段落重排变形金刚 通过Transformers进行现成的句子/段落排名。 输入:查询和句子/段落列表。 输出:按与查询的预测相关性的顺序排列句子/段落的列表。 在线提供了几种经过微调的通道重新排名模型(在MSMARCO数据集上进行了训练): 直接从HuggingFace模型中心使用: , 使用本地模型,例如 (将需要转换为PyTorch格式) 快速开始
2021-10-19 21:14:05 2KB
1
简单的变形金刚 该库基于HuggingFace的库。 使用简单的Transformers,您可以快速训练和评估Transformer模型。 初始化模型,训练模型和评估模型仅需要三行代码。 技术支持 序列分类 代币分类(NER) 问题回答 语言模型微调 语言模型训练 语言生成 T5型号 Seq2Seq任务 多模态分类 对话式AI。 文本表示生成。 目录 设置 与conda 从安装Anaconda或Miniconda Package Manager 创建一个新的虚拟环境并安装软件包。 conda create -n st python pandas tqdm conda activate st如果使用cuda: conda install pytorch>=1.6 cudatoolkit=11.0 -c pytorch否则: conda install pytorch cpuonly
1