对下载的IMDB数据集中的test和train分别进行预处理从而方便后续模型训练,代码为PreProcess.py。预处理主要包括:大小写转化、特殊字符处理、stopwords过滤、分词,最后将处理后的数据存储为CSV格式,以方便后续调试。借用了nltk的 stopwords 集,用来将像 i, you, is 之类的对分类效果基本没影响但出现频率比较高的词,从训练集中清除。
2023-03-01 16:29:27 1KB pytorch RNN lstm 情感分类
1
数据集官网:https://ai.stanford.edu/~amaas/data/sentiment/ 数据集的训练集和测试集各有25000个样本,且正负样本个数相同,均为12500个。 该数据集和官网提供的相比,去除了一些不必要的文件,其他均未改动。
2022-12-24 11:35:34 41.88MB nlp 情感分析 IMDb 深度学习
1
Keras用IMDB数据源(imdb.npz + imdb_word_index.json) from tensorflow.keras.datasets import imdb (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) # word_index is a dictionary mapping words to an integer index word_index = imdb.get_word_index() # We reverse it, mapping integer indices to words reverse_word_index = dict([(value, key) for (key, value) in word_index.items()]) # We decode the review; note that our indices were offset by 3 # because 0, 1 and 2 are reserved indices for "padding", "start of sequence", and "unknown". decoded_review = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])
2022-12-05 21:47:55 17.27MB imdb keras
1
利用python中的深度学习库keras,对IMDB电影数据集建立了神经网络模型进行分析,涉及原始电影数据的词嵌入处理技术,附有完整的Python代码以及注释。
2022-11-23 11:50:45 70KB 神经网络 keras 深度学习 python
1
将下载好的imdb.npz文件放在主目录下的 .keras/datasets文件夹下即可(用于tensorflow学习)
2022-11-20 09:57:58 16.66MB imdb.npz tensorflow NLP
1
imdb数据集:用于文档分类。
2022-10-26 16:59:14 154.07MB 分类 数据挖掘 人工智能 机器学习
1
语言:English 通过搜索想要的电视节目/电影的IMDB ID来搜索RARBG种子 通过此扩展,您可以按名称TMDB名称搜索RarBG网站,并且将按IMDB ID搜索
2022-07-19 22:47:40 27KB 扩展程序
1
IMDB Large Movie Review Dataset 适用于情感二元分类的数据集,旨在作为情绪分类的基准,该数据集中有 50,000 条两极分化明显的电影评论拥有训练和测试,还有 50,000 条未经标记的数据可供使用。 该数据集由斯坦福大学于 2011 年发布,相关论文有《Learning Word Vectors for Sentiment Analysis》。
2022-07-13 16:05:36 137.77MB 数据集
IMDB数据集 IMDB数据集
2022-07-06 16:06:42 17.26MB 数据集 机器学习 深度学习
1
电影资讯网站 使用 imdb api 获取电影详细信息
2022-06-16 22:37:14 885KB HTML
1