变压器复制
纸
小川阳一郎,山本和秀,“考虑日语纠错中的错误趋势的伪错误生成”,自然语言处理学会第二十六届年会
示范现场
目录结构
应用程序应用程序源代码
corpus_scripts脚本,例如数据集预处理
数据将您要使用的数据集放在这里
data_art伪错误将生成的数据放在此处
字典
把词汇词典放在这里
需要与实验中使用的除法单元相对应的字典
出来
data_bin 火车的二进制文件,有效数据集
data_bin_art 伪数据集的二进制文件
data_raw 测试数据集原始文件
日志日志文件
楷模模型文件
结果生成结果
执行程序
资料集
准备要使用的数据集
程序:
分割数据集(分词等)
分为训练,有效,测试
错误句和正确句分开文件
放置在data目录中
文件名示例:
corpus.train.src#训练数据的错误句侧
corpus.train.tgt#更正训练数据的文本侧
co
2022-03-16 12:48:51
330KB
Python
1