先运行main.py进行文本序列化,再train.py模型训练
dataset.py
from torch.utils.data import DataLoader,Dataset
import torch
import os
from utils import tokenlize
import config
class ImdbDataset(Dataset):
def __init__(self,train=True):
super(ImdbDataset,self).__init__()
data_path = rH:\073-nlp自然语言处理
1