只为小站
首页
域名查询
文件下载
登录
微博舆情的Hadoop存储和管理平台设计与实现
随着Internet技术的迅速发展,网络舆情监控系统正在得到广泛应用。网络舆情监控系统的数据量也急速膨胀,如何高效地存储和管理这些海量的非结构或半结构化数据成为网络舆情系统研发中的挑战课题。传统的关系数据库和分布式计算等数据处理的方式也越来越不能适应日益增长网络大数据。针对微博数据的特点建立了一种面向微博舆情应用的Hadoop存储平台的多层体系架构,并采用列数据库设计多种微博结构化数据的表结构,以及表之间的关系模型。测试结果表明,设计的存储管理平台具有检索响应速度快、可扩展性好等特点。
2023-03-06 13:41:00
504KB
舆情分析
1
自然语言处理+2020年初微博数据(疫情相关)+适用于nlp、数据挖掘模型训练
自然语言处理+2020年初微博数据(疫情相关)+适用于nlp、数据挖掘模型训练
2023-03-06 00:53:02
2.37MB
数据挖掘
NLP
1
新浪微博爬虫,用python爬取新浪微博数据
本程序可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。因为内容太多,这里不再赘述,详细内容见获取到的字段。如果只需要用户信息,可以通过设置实现只爬取微博用户信息的功能。本程序需设置cookie来获取微博访问权限,后面会讲解如何获取cookie。如果不想设置cookie,可以使用免cookie版,二者功能类似。 爬取结果可写入文件和数据库,具体的写入文件类型如下: txt文件(默认) csv文件(默认) json文件(可选) MySQL数据库(可选) MongoDB数据库(可选) SQLite数据库(可选) 同时支持下载微博中的图片和视频,具体的可下载文件如下: 原创微博中的原始图片(可选) 转发微博中的原始图片(可选) 原创微博中的视频(可选) 转发微博中的视频(可选) 原创微博Live Photo中的视频(免cookie版特有) 转发微博Live Photo中的视频(免cookie版特有)
2023-03-04 11:00:59
111KB
python
爬虫
新浪微博
1
Python+Scrapy获取微博用户基本资料.zip
使用python+scrapy爬取新浪微博的用户基本资料、关注和粉丝
2023-03-01 09:32:20
27KB
Spider
Python
1
新浪微博爬虫,用python爬取新浪微博数据-python
本程序可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。
2023-02-28 14:16:16
102KB
Web爬虫
1
强大的python实现的微博爬虫项目源码
基于weibo.com的新版API构建,拥有最丰富的字段信息 多种采集模式,包含微博用户,推文,粉丝,关注,转发,评论,关键词搜索 支持针对单个关键词获取单天超过1200页的检索结果 #257 支持长微博全文的获取 基于关键词微博搜索支持指定时间范围 添加IP归属地信息的采集,包括用户数据,微博数据和微博评论数据 该项目需要安装Python环境和MongoDB数据库,可以直接使用
2023-02-27 19:23:06
17KB
python爬虫
微博
1
微博评论情感分析(可视化+数据二维表)
使用python的requests配合re对微博评论进行获取存储在mysql数据库中 使用pandas库对数据进行分析处理 使用snownlp对文本进行分析 使用echarts.js将分析的数据进行可视化呈现 总体框架使用python 的Django框架
2023-02-24 16:36:53
628KB
爬虫
数据可视化
数据分析
情感分析
1
微博短文本预处理及学习研究综述
认为因短文本具有特征稀疏性和高度冗余性,微博短文本的预处理及学习方法研究已经成为微博信息挖掘及应用的关键,并在许多方面有着非常重要和广泛的应用。重点分析微博短文本的特性,并对微博短文本的预处理和学习方法及其应用现状进行归纳和总结,包括短文本特征表示、短文本特征拓展与选择、短文本分类与聚类学习、热点事件发现及自动文摘等。最后指出相关研究的局限性,并对未来的发展方向进行展望。
2023-02-23 20:58:56
738KB
微博短文本;
预处理;
短文本学习;
热点事件发现;
1
Scrapy微博爬虫-根据关键词爬取相关微博帖子信息
主要使用Python中第三方库Scrapy爬虫框架,首先你需要阅读README.md文件说明,然后输入你的微博cookie,然后输入关键词、爬取日期等等信息,最后运行即可。
2023-02-21 17:56:41
6.42MB
爬虫
1
详解用python写网络爬虫-爬取新浪微博评论
新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id。 分析新浪微博的评论获取方式得知,其采用动态加载。所以使用json模块解析json代码 单独编写了字符优化函数,解决微博评论中的嘈杂干扰字符 本函数是用python写网络爬虫的终极目的,所以采用函数化方式编写,方便后期优化和添加各种功能 # -*- coding:gbk -*- import re import requests import json from lxml import html #测试微博4054483400791767 comments=[] def
2023-02-21 11:09:15
47KB
python
python函数
python实例
1
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
狂神说Java系列笔记.rar
中国地面气象站观测数据2000-2021
刚萨雷斯《数字图像处理》第四版答案.pdf
拾荒者.exe同时ID扫描器IP扫描器
MATLAB之LSTM预测
OLED显示温度和时间-STM32F103C8T6(完整程序工程+原理图+相关资料).zip
风电场风速及功率数据.zip
基于FPGA的DDS信号发生器设计(频率、幅度、波形可调)
Plexim Plecs Standalone 4.1.2 x64.7z
Steam离线安装版
基于VMD算法的信号降噪.rar
云视通端口扫描器.rar
EEMD算法应用于信号去噪.rar
麻雀搜索算法(SSA)优化bp网络
2021华为芯片研发岗位笔试题
最新下载
小NAO机器人舞蹈比赛范例
PELCO.zip(模块学习二:基于PELCO-D协议对云台进行定点控制配套资源)
nao机器人教学视频(中文)
NAO机器人舞蹈Choregraphe程序
UML精粹.pdf
(高清版)UML精粹 标准对象建模语言简明指南 第3版.pdf
血细胞检测数据集yolo格式
IP地址查看及备份工具支持PE.exe
[CS131]2017斯坦福cs131计算机视觉课程笔记和课后作业
百度文字识别.qmle
其他资源
软件公司实习日记15篇
迁移学习综述a survey on transfer learning的整理下载
Xshell-7.0个人免费版.zip
MUSIC算法的DOA估计的matlab仿真程序
网络安全基础:应用与标准(第4版)
缓和曲线施工放样程序
双均线加入滑点手续费.py
窗函数的频率响应特性
inSSIDer 4和谐真实可用版
ASP+SQL_Server制作的简易留言板(含源码)
奥运会历史上获奖运动员数据
一种基于QR分解的图像脆弱水印算法实现
计算两个 420YUV 的 Y-PSNR、U-PSNR、V-PSNR 和 YUV-PSNR
PrefixHashTree.pdf
侧向耦合高阶表面光栅的高亮度单模锥形激光二极管
浅析零知识证明.pdf
VB 6.0环境下可用的Ping
json.jar包
C语言数据结构pdf,严蔚敏
虚拟网卡调用示例
C#爬虫获取电影网资源
ESP8266与上位机通信代码
SecondCopy8.1.2.0汉化注册版(内附注册码)