语法检查器
该代码的目的是使用深度学习技术纠正简单的语法错误,更具体地说,是使用注意机制对序列模型进行延迟的序列。
数据集
由于没有用于语法校正的开源数据集,因此我决定使用一种简单的技术向包含不符合语法要求的句子的数据集添加语法插补。 这是我发现的最大的会话书面英语集,在语法上基本上是正确的,超过30万行。
给定这样的文本样本,下一步是生成在训练期间使用的输入输出对。 这是通过以下方式完成的:
从数据集中绘制示例句子。
随机应用某些扰动后,将输入序列设置为此句子。
将输出序列设置为不受干扰的句子。
其中在步骤(2)中应用的扰动旨在引入小的语法错误,我们希望模型学习纠正。 到目前为止,这些干扰仅限于:
减去文章(a,an,the)
用其对应的同一个替换一些普通的同音字(例如,用“ there”替换“ their”,用“ than”替换“ then”)
在此项目中,每种干扰都会
2021-11-30 10:37:56
19.06MB
Python
1