上传者: dhyuan_88
|
上传时间: 2021-06-04 13:01:33
|
文件大小: 5.89MB
|
文件类型: RAR
10万+微博数据文件打包 可用于自然语言处理任务的数据集
十万微博数据集
爬取的103个微博用户截止2019年8月发布的所有原创微博,以csv文件存储,每个用户对应一个csv文件。包括48位女性,55位男性,男女性分开存储。包括id、微博正文、微博原始图片URL、原始视频URL、发布日期、发布工具、点赞数、评论数、转发数、话题和@用户。总共包括十多万条微博,可以用做性别分类等自然语言处理任务的数据集。