1、 该软件只支持ANSI编码文本,不支持Unicode编码文本。 2、 汉语文本可不进行分词处理。 3、 中英文文本文件要求分别以*.ZH.txt和*.EN.txt方式命名。 4、 数据文件必须严格行对齐,如包含空行也必须达到文本对应,即平行文件的对应行都是空的。软件不能智能自动对齐语料。 5、 软件支持正则表达式检索。 6、 软件默认支持英文词形还原检索(lemmatized search),如,检索go,可得到含有go、goes、went、going、gone等的平行句对。去除lemmatized前的复选框,则可以检索实际输入的检索项(比如搜goes,只能得到含goes的平行句对)。 7、 软件还支持对应语言文本中包含或不含(exclude)某词项的检索。如检索education,以及结果中包含(或不含)“教育”的句对。 8、 结果可存为tab符分隔的文本文件,便于后续分析。
2019-12-21 21:57:29 4.6MB 双语平行语料
1