数据挖掘项目

上传者: 42108948 | 上传时间: 2022-08-31 21:34:30 | 文件大小: 1.86MB | 文件类型: ZIP
数据挖掘项目 推文聚类 目标: 主Twitter API用于提取推文 掌握自然语言处理 数据清理 推文分类 要求: Twitter开发人员帐户 Twitter API 1-数据提取: 导入库(tweepy +熊猫+ numpy) 连接到Twitter API 将推文提取到多个csv文件中,然后将它们组合到一个csv文件中 2-处理前的推文: 使用re库搜索不必要的信息。 删除标点符号,主题标签,个人资料名称,URL和表情符号。 创建一个新的干净的CSV文件 3-处理推文:自然语言处理 导入nltk(自然语言工具包),它由最常用的算法组成,例如标记化,词性标记,词干,情感分析,主题细分和命名实体识别。 NLTK帮助计算机分析,预处理和理解书面文本。 使用“停用词”摆脱英语单词,这些单词不会给句子增加太多含义。 在不牺牲含义的前提下,可以安全地忽略它们。 使用“ Porte

文件下载

资源详情

[{"title":"( 14 个子文件 1.86MB ) 数据挖掘项目","children":[{"title":"Data-Mining-Project-main","children":[{"title":"TwitterClustering.ipynb <span style='color:#111;'> 197.06KB </span>","children":null,"spread":false},{"title":"twitter_p2.csv <span style='color:#111;'> 296.56KB </span>","children":null,"spread":false},{"title":"requirements.txt <span style='color:#111;'> 108B </span>","children":null,"spread":false},{"title":"clean_combined_csv.csv <span style='color:#111;'> 1.34MB </span>","children":null,"spread":false},{"title":"elbow.JPG <span style='color:#111;'> 18.67KB </span>","children":null,"spread":false},{"title":"twitter_p0.csv <span style='color:#111;'> 372.61KB </span>","children":null,"spread":false},{"title":"combined_csv.csv <span style='color:#111;'> 1.68MB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 1.91KB </span>","children":null,"spread":false},{"title":"twitter_p3.csv <span style='color:#111;'> 332.75KB </span>","children":null,"spread":false},{"title":"twitter_clusters.csv <span style='color:#111;'> 3.16KB </span>","children":null,"spread":false},{"title":"credentials.py <span style='color:#111;'> 277B </span>","children":null,"spread":false},{"title":"twitter_p4.csv <span style='color:#111;'> 314.45KB </span>","children":null,"spread":false},{"title":"twitter_p1.csv <span style='color:#111;'> 390.74KB </span>","children":null,"spread":false},{"title":"result.JPG <span style='color:#111;'> 105.83KB </span>","children":null,"spread":false}],"spread":false}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明