英语纯文本笑话数据集
该数据库从三个来源中收集了大约208 000个笑话。
我不主张这些文件的所有权,也不必认可其中的笑话。 提供此数据集用于研究目的(请参阅下面的“许可”部分)。
档案文件
当前,数据集包含来自三个来源的笑话,每个来源都在不同的文件中。
----------------------------------------------
reddit_jokes.json | 195K jokes | 7.40M tokens
stupidstuff.json | 3.77K jokes | 396K tokens
wocka.json | 10.0K jokes | 1.11M tokens
----------------------------------------------
TOTAL | 208K jokes | 8
1