高音数据集对性别分类的自然语言处理NLP 借助自然语言处理NLP,我可以从Tweeter数据集中识别性别分类 该文件包含: 加载数据集: 该数据集用于训练CrowdFlower AI性别预测器。 您可以在此处阅读有关该项目的所有信息。 要求参与者仅查看Twitter的个人资料并判断用户是男性,女性还是品牌(非个人)。 数据集包含20,000行,每个行都有一个用户名,一条随机鸣叫,帐户个人资料和图像,位置,甚至是链接和侧边栏颜色。 数据集来自这里: : 灵感 您可以尝试使用此数据集回答以下几个问题: 推文和个人资料中的单词如何预测用户的性别? 用什么词可以强烈预测男性或女性性别? 风格因素(例如链接颜色和侧边栏颜色)如何很好地预测用户的性别? 数据 数据集包含以下字段: unitid:用户的唯一ID _golden:模型的黄金标准中是否包含用户; 对或错 unitsta
2022-11-11 19:02:20 3.03MB JupyterNotebook
1
自动刮伤检测 twitter数据集(Ghosh)和reddit注释数据集(Khodak)中的讽刺检测该项目旨在对twitter数据和reddit注释数据进行讽刺分类。 项目中使用了两个数据集 Twitter数据集(Ghosh) Reddit评论数据集(Khodak) 资料夹 Twitter_dataset_Ghosh i)代码-包含3个notbook .ipynb文件ii)资源-包含所有原始数据和预处理数据以及处于中间状态的输出 Reddit_dataset_Khodak i)代码-包含3个notbook .ipynb文件ii)资源-包含所有原始数据和预处理数据以及处于中间状态的输出 运行项目的依赖项 情感力量工具 lt 凯拉斯 张量流 麻木 科学的 Gensim 斯克莱恩 海生的 matplotlib 大熊猫 泡菜 Ghosh数据集的流程 原始数据已使用twitter_pre
2022-03-07 15:29:16 3.96MB
1
情感分类常用数据集Twitter,针对aspect term进行分类,极性分为positive,negative, neutral。只有训练集和测试集,移除了有矛盾的情感极性
2021-09-19 00:02:31 30.08MB 情感分类 Twitter数据集 aspect级别
1
选民2020 VoterFraud2020是一个多模式Twitter数据集,具有来自260万用户的760万条推文和2560万条与选民欺诈指控相关的转发。 ,交互式Web应用程序,用于探索数据集 具有数字对象标识符(DOI) 10.6084 / m9.figshare.13571084的 ,数据分析背后的代码 快来了 github / sTechLab / twitter-stream,twitter流代码 目录 水化数据 在数据集中的鸣叫和用户对象可以使用水合或。 注意:来自暂停用户的推文将无法进行水合作用。 我们认为这些推文符合。 我们将与已发表的学术研究人员分享这些推文; 给我们发电
2021-08-19 10:25:09 374.83MB twitter dataset election-2020 election-fraud
1
CML-COVID:具有潜在主题、情绪和位置信息的大规模COVID-19 TWITTER数据集 CML-COVID: A LARGE-SCALE COVID-19 TWITTER DATASET WITH LATENT TOPICS, SENTIMENT AND LOCATION INFORMATION
2021-08-04 18:05:34 1.3MB 新冠数据集 COVID-19数据集
Twitter的数据集,用来进行大数据分析,可以对原始数据求聚类系数等 进行一系列操作处理
2019-12-21 19:59:10 21.3MB 大数据 Twitter
1