torchtext的使用总结,并结合Pytorch实现LSTM 版本说明 PyTorch版本:0.4.1 火炬文字:0.2.3 python:3.6 文件说明 Test-Dataset.ipynb Test-Dataset.py使用torchtext进行文本预处理的笔记本和py版。 Test-Dataset2.ipynb使用Keras和PyTorch进行数据集进行文本预处理。 Language-Model.ipynb使用gensim加载预训练的词向量,并使用PyTorch实现语言模型。 使用说明 分别提供了笔记本版本和标准py文件版本。 从零开始逐步实现了torchtext文本预处理,
2022-07-20 01:38:55 43KB python nlp pytorch torchtext
1
中文预训练词向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为:https://github.com/Embedding/Chinese-Word-Vectors 此中文预训练词向量为知乎Word + Ngram的词向量
2022-03-18 09:38:10 225.28MB 数据集
1
使用GWE(中文字形特征提取)预训练词向量(1.6GB维基百科语料),维度为300,词汇量约13000,文件大小为41.2MB
2021-09-13 09:25:42 56.93MB 自然语言处理 预训练词向量
1
官网glove.6B的词向量,里面包含了50d、100d、200d、300d常用英文单词的词向量,来源于wiki百科和Gigaword数据集。
2021-06-01 08:42:18 867.45MB glove数据集 nlp 深度学习 预训练词向量
1
使用gensim对维基百科作为预训练语料(约1.6G语料),生成词汇量约13000个词汇,维度为300,文件大小为45.6MB。使用方法,参考博客:https://blog.csdn.net/qq_36426650/article/details/87738919
2021-03-21 12:55:40 45.65MB 自然语言处理 预训练词向量
1
使用glove预训练词向量(1.6GB维基百科语料),维度为300,词汇量约13000,文件大小为41.2MB
2019-12-21 20:46:02 41.24MB 自然语言处理 预训练词向量
1