上传者: 42166105
|
上传时间: 2021-12-15 12:52:36
|
文件大小: 215KB
|
文件类型: -
gpt-2-关键字生成
一种将文本文档数据集编码为某种形式的方法,当使用的进行时,网络将能够生成与指定关键字有关的文本(尽管从理论上讲,编码后的文本可以与任何类型的文本一起使用,基于神经网络的生成,它利用了GPT-2的长远视野和强大的上下文能力)。
您可以使用example文件夹演示如何使用example文件夹中的脚本的结果。 此外,您可以自己使用 ( )来使用关键字,或者在/ r / legaladvice上阅读该基于关键字的模型的。
使用对编码进行标记化,以实现更健壮的关键字标记化,并使用并行化,以大幅提高大型数据集的编码速度(使用32个vCPU /线程与单线程相比,编码速度提高了约11倍,CPU利用率为70%)
用法
此仓库包含一个keyword_encode.py脚本,该脚本尝试以无监督的方式提取关键字(尽管您可以提供自己的关键字,如果有的话)。 每个文本文档的方法如下: