随着Internet技术的迅速发展,网络舆情监控系统正在得到广泛应用。网络舆情监控系统的数据量也急速膨胀,如何高效地存储和管理这些海量的非结构或半结构化数据成为网络舆情系统研发中的挑战课题。传统的关系数据库和分布式计算等数据处理的方式也越来越不能适应日益增长网络大数据。针对微博数据的特点建立了一种面向微博舆情应用的Hadoop存储平台的多层体系架构,并采用列数据库设计多种微博结构化数据的表结构,以及表之间的关系模型。测试结果表明,设计的存储管理平台具有检索响应速度快、可扩展性好等特点。
2023-03-06 13:41:00 504KB 舆情分析
1
自然语言处理+2020年初微博数据(疫情相关)+适用于nlp、数据挖掘模型训练
2023-03-06 00:53:02 2.37MB 数据挖掘 NLP
1
本程序可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。因为内容太多,这里不再赘述,详细内容见获取到的字段。如果只需要用户信息,可以通过设置实现只爬取微博用户信息的功能。本程序需设置cookie来获取微博访问权限,后面会讲解如何获取cookie。如果不想设置cookie,可以使用免cookie版,二者功能类似。 爬取结果可写入文件和数据库,具体的写入文件类型如下: txt文件(默认) csv文件(默认) json文件(可选) MySQL数据库(可选) MongoDB数据库(可选) SQLite数据库(可选) 同时支持下载微博中的图片和视频,具体的可下载文件如下: 原创微博中的原始图片(可选) 转发微博中的原始图片(可选) 原创微博中的视频(可选) 转发微博中的视频(可选) 原创微博Live Photo中的视频(免cookie版特有) 转发微博Live Photo中的视频(免cookie版特有)
2023-03-04 11:00:59 111KB python 爬虫 新浪微博
1
使用python+scrapy爬取新浪微博的用户基本资料、关注和粉丝
2023-03-01 09:32:20 27KB Spider Python
1
本程序可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。
2023-02-28 14:16:16 102KB Web爬虫
1
基于weibo.com的新版API构建,拥有最丰富的字段信息 多种采集模式,包含微博用户,推文,粉丝,关注,转发,评论,关键词搜索 支持针对单个关键词获取单天超过1200页的检索结果 #257 支持长微博全文的获取 基于关键词微博搜索支持指定时间范围 添加IP归属地信息的采集,包括用户数据,微博数据和微博评论数据 该项目需要安装Python环境和MongoDB数据库,可以直接使用
2023-02-27 19:23:06 17KB python爬虫 微博
1
使用python的requests配合re对微博评论进行获取存储在mysql数据库中 使用pandas库对数据进行分析处理 使用snownlp对文本进行分析 使用echarts.js将分析的数据进行可视化呈现 总体框架使用python 的Django框架
2023-02-24 16:36:53 628KB 爬虫 数据可视化 数据分析 情感分析
1
认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。
1
主要使用Python中第三方库Scrapy爬虫框架,首先你需要阅读README.md文件说明,然后输入你的微博cookie,然后输入关键词、爬取日期等等信息,最后运行即可。
2023-02-21 17:56:41 6.42MB 爬虫
1
新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id。 分析新浪微博的评论获取方式得知,其采用动态加载。所以使用json模块解析json代码 单独编写了字符优化函数,解决微博评论中的嘈杂干扰字符 本函数是用python写网络爬虫的终极目的,所以采用函数化方式编写,方便后期优化和添加各种功能 # -*- coding:gbk -*- import re import requests import json from lxml import html #测试微博4054483400791767 comments=[] def
2023-02-21 11:09:15 47KB python python函数 python实例
1