当数据量达到TB或PB级的时候,传统关系型数据型已力不从心。在大数据热潮中,推出了NoSQL数据库,这种天生就为分布式存储而设计的技术,尤其以Apache HBase为代表,占领海量数据存储技术的大半壁江山。本教视从实战角度出来,向学员们手把手掌握HBase使用精髓,让学员达到如下目标: 1. 了解分布式存储的原理及架构。 2. 掌握如何使用HBase实现海量数据存储与检索。 3. 掌握HBase在开发中常见的技术大坑与调优技术。
2021-09-09 13:11:00 272B hbase
1
微博蜘蛛 本程序可以连续爬取一个或多个新浪微博用户(如,,)的数据,转换结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。因为内容太多,这里不再重复述,详细内容见。如果只需要用户信息,可以通过设置实现只爬取微博用户信息的功能。本程序需设置Cookie来获取微博访问权限,后面会讲解 。如果不想设置cookie,可以使用,同时功能类似。 爬取结果可写入文件和数据库,具体的写入文件类型如下: txt文件(默认) csv文件(默认) json文件(任选) MySQL数据库(任选) MongoDB数据库(任选) SQLite数据库(任选) 同时支持下
2021-09-08 10:49:46 100KB python python3 help-wanted weibo
1
在微博中,每一个用户都会有一个关注列表,一个粉丝列表。用户可以查看自己的关注,粉丝列表,也可以查看别人的关注,粉丝列表。并且,要展示列表里每个人与当前查看者的关注状态。
1
人民日报历史微博内容,仅供研究使用,该版权已微博网站为准。商业使用请联系源账号。此内容仅包含人民日报发布的微博的公开内容和相关的转发、点赞和评论数量。
2021-08-03 18:56:01 26.58MB 微博数据
1
共85959条数据,爬取时间的为2018年3月18日,数据包括爬取时间,爬取链接,微博url,用户id,用户昵称,用户头像,关注数,粉丝数,发布时间,微博内容, 微博内容txt,发自,转发数,评论数,点赞数,是否长微博,微博配图,视频地址,视频封面,是否转发,原微博,转发,热门评论,评论
2021-07-08 21:19:21 171.82MB 央视新闻 微博数据 爬虫
1
微博采集工具Weisper 是帮助用户采集微博、粉丝信息的工具。工具能模拟人的操作,把网站上显示的信息采集到工具中。采集的信息包括含有关键字的微博,还能采集微博账号的所有微博、粉丝信息、微博评论、微博转发等。相比其他工具,Weisper的优势在于:简单易用:用户会上网就会使用工具,不需要了解HTML语言、数据库、循环等知识。运行稳定:软件经过多次升级、优化,并被上千名用户验证,软件已经能在无人值守的情况下连续运行超过72小时。跳过验证码:软件利用独有的技术,能让用户不输入验证码,或者尽量少输入验证码。虚拟IP功能:软件根据需要,可以提供虚拟IP,让软件能持续进行数据采集,不被微博平台锁住。断点运行:软件在网络、计算机等原因意外中断后,能保留中断时状态,待问题解决后,继续从断点开始运行。双语支持:软件支持中文和英语双语种。
2021-07-05 16:16:09 150.9MB 网络软件
1
十万微博数据集 包括评论 爬取的103个微博用户截止2019年8月发布的所有原创微博,以csv文件存储,每个用户对应一个csv文件。包括48位女性,55位男性,男女性分开存储。包括id、微博正文、微博原始图片URL、原始视频URL、发布日期、发布工具、点赞数、评论数、转发数、话题和@用户。总共包括十多万条微博,可以用做性别分类等自然语言处理任务的数据集。
2021-07-02 09:12:05 5.63MB 微博数据集
基于Python的新浪微博数据爬虫.pdf
2021-06-29 15:03:31 1.03MB Python 程序 数据处理 专业指导
Weibo Spider 本程序可以连续爬取一个或多个新浪微博用户(如、、)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。因为内容太多,这里不再赘述,详细内容见。如果只需要用户信息,可以通过设置实现只爬取微博用户信息的功能。本程序需设置cookie来获取微博访问权限,后面会讲解。如果不想设置cookie,可以使用,二者功能类似。 爬取结果可写入文件和数据库,具体的写入文件类型如下: txt文件(默认) csv文件(默认) json文件(可选) MySQL数据库(可选) MongoDB数据库(可选) SQLite数据库(可选) 同时支持下载微博中的图片和视频,具体的可下载文件如下: 原创微博中的原始图片(可选) 转发微博中的原始图片(可选) 原创微博中的视频(可选) 转发微博中的视频(可选) 原创微博Live Photo中的视频(特有
2021-06-21 10:34:29 102KB python python3 help-wanted weibo
1
爬取到微博数据110w,需要的自取。数据为json格式。可以用做数据分析用途。
2021-06-18 19:27:13 93.37MB 数据 微博 json python
1