给定“alien-life.txt”中显示的文本,使用 TextTiling 算法找到所有可能的段边界。 参考边界在文本中用“$$”标记。 执行以下任务。 (可以使用任何编程语言。但是,您应该能够执行这些程序。)
删除所有标点符号并将字符小写。
删除功能词(提供功能词列表链接)
执行词干提取(您可以为此使用 NLTK)
在不使用 NLTK 库的情况下实现 TextTilingt,并用它分割“alien-life.txt”。 使用 (m-sigma) 作为阈值,其中 (m) 平均深度分数和 (sigma) 是标准偏差。
实现 Windowdiff 度量并报告分段性能
将伪句子长度从 10 改变到 100 并绘制 Windowdiff 值。 报告最佳伪句子长度。
2022-04-11 18:50:24
239KB
Python
1