[TOC] Introduction 最近需要新浪微博的数据做研究,苦于找不到满意的数据,新浪微博的API对数据的获取有限制,也找不到合适的爬虫代码,遂自己实现了一个爬取新浪微博的爬虫。 爬取的数据是 新浪微博搜索某一个话题,得到的微博数据,下面是爬取到的有关苹果手机的微博示例: 之前也爬取过 ,但是好久没有再练手了,发现遗忘了很多知识点,加上新浪微博对爬虫的嗅觉异常灵敏,导致中间遇到了非常多的坑,不过好在大多数的问题,都已经解决了。所以今天索性总结一下,如果以后再写爬虫,可以拿来参考。 另外,我不是写爬虫的专家,对python的语法也不是很熟悉,也没有用scrapy这种爬虫工具(感觉用不到,因为爬虫的思想还是很简单的),所以写出来的爬虫应该比不上专业的水准,最后我会共享该程序的源码。 本文涉及的主要知识点有如下几个,其顺序大概是我写爬虫的步骤: 选择合适的爬取源 分析生成要爬取网站的u
2022-01-03 19:36:24 9.19MB HTML
1
微博每日热点搜索 微博热搜榜,记录从2020-12-29日开始的微博热门搜索。 今日热门搜索 2.7M :fire: 2.5M :fire: 1.1M :fire: 1.0M :fire: 1.0M :fire: 1.0M :fire: 964.7K :fire: 872.7K :fire: 846.2K :fire: 838.7K :fire: 724.3K :fire: 682.3K :fire: 668.1K :fire: 600.3K :fire: 591.1K :fire: 586.1K :fire: 569.1K :fire: 557.8K :fire: 546.4K :fire: 534.3K :fire: 533.0K :fire: 453.4K :fire: 429.4K :fire: 415.5K :fire: 413.2K :fire: 397.3K :fire: 394.4K :fire: 392.6K :fire: 391.9K :fire: 387.5K :fire: 379.5K :fire:
2021-12-27 17:03:02 487KB TypeScript
1
Weibo-plugin 批量删除微博脚本 安装说明 因为Chrome商店开发者注册收费,穷逼学生党,所以没有上架 所以按照以下操作安装: clone本仓库到本地 在Chrome扩展管理页打开开发这模式 点击加载已解压的扩展程序 选择clone的本目录即可 使用说明 登陆网页版微博 切换到新版UI 进入个人主页,在筛选中过滤查出想删除的微博 然后点击顶部导航栏头像后的删除按钮即可 删除过程中全程自动,可以按键盘的ESC停止删除 其他说明 该脚本仅用于自用,以及分享给有需要的同学,使用前请谨慎考虑并仔细阅读使用说明,一旦出现其他问题,概不负责
2021-12-23 16:39:54 5KB chrome-extension weibo JavaScript
1
获取视频微博 从微博下载视频文件 用法 python video_weibo.py videourl
2021-12-20 18:02:00 2KB Python
1
作者简介 作者 QQ交流群 个人博客 项目详情请参考微信原文链接: 如有疑问可通过公众号找到作者,微信扫描下方二维码或者在微信内搜索 微信公众号:月小水长(ID:inspurer); WeiboSuperScrapy 最强微博爬虫,用户、话题、评论一网打尽。 GUI 功能集中版 运行 GUI.py 即可爬取用户/话题微博 运行 WeiboCommentScrapy.py 并修改里面的微博id (wid) 即可爬取指定微博的所有评论。 无 GUI 功能独立版 单独的 py 文件分别对立一个 功能 WeiboCommentScrapy.py 爬取评论 WeiboTopicScrapy.py 爬取指定关键词的所有微博,突破了 50 页的限制,可指定截至日期时间段搜索(比如 20200101-20200102) WeiboSuperCommentScrapy.py 可爬取一条微博的所有评论,更
1
新浪微博互动预测 介绍 比赛的详细信息可以在找到竞争主要是分析用户在中国微博平台上发布的行为和消息,并预测每条消息的转发,评论和喜欢的次数。 该项目主要使用python和pandas。 这项比赛的第二阶段仍在进行中。 这是我为第1阶段构建的数据基准线。 设计 这是一个自行设计的数据基准线。 主要思想是模块化数据项目的流程。 用户编写方法来生成功能,其存储数据帧中大熊猫在功能的文件夹,并feature.log会自动记录所有现有的功能和它们的参数。 用户可以在Train方法中组合不同的功能并选择不同的模型,模型将存储在models文件夹中,模型的信息将存储在train.log中。 用户选择不同的功能和参数组合进行测试,结果将存储在结果文件夹中,而测试信息将存储在test.log中 笔记本文件夹中的Ipython笔记本用于播放数据,迭代地查看日志。 该代码位于weiboPredict
2021-12-11 21:15:37 31.29MB Python
1
中文 八分类 贝叶斯 训练文件为ysr.py 可以生成两个模型并保存 测试文件为test.ipynb 偷个懒在notebook上写的 代码很好懂,写的也很简单,随便拿去改~
2021-12-07 21:24:57 1.89MB python 附件源码 文章源码
1
微博公众意见数据集 不断更新新浪微博舆论数据集(仅用于研究) 更新:一站式科研数据服务平台已全面启动!! 只需单击几下即可实现数据采集,数据分析和数据应用。 欢迎尝试与合作 :clapping_hands: :clapping_hands: :clapping_hands: 介绍 新浪微博是中国最大的公共社交媒体平台。 最新和最受欢迎的社交活动将尽快在微博上公开和讨论。 因此,建立一个实时,全面的微博舆情数据集具有重要意义。 目前,在给定指定关键词和指定期限的情况下,微博推文数据集的构建方法有两种:(1)应用微博提供的高级搜索API; (2)遍历所有微博用户,收集指定时间段的所有推文,然后使用指定的关键字过滤推文。 但是,对于第一种方法,由于微博搜索API的限制,一次搜索的结果最多包含1000条推文,这使得构建大型数据集变得困难。 至于第二种方法,尽管我们可以构建几乎没有遗漏的大规模数据集,但是遍历数十亿微博用户需要非常长的时间和大量的带宽资源。 另外,大量的微博用户
2021-11-23 20:05:20 447KB
1
基于LDA模型的用户画像构建 运行配置 请同时配置python2 与 python3 简介 "主题模型"是对文本中隐含主题的一种建模方法。 每个主题其实是词表上单词的概率分布。 常见的主题模型有3种: PLSA LDA L-LDA LDA 包含“词 - 主题 - 文档” 三层结构。 基于LDA的用户画像核心是对于文本提取用户特征,并输出用户特征所对应的关键词。 在本文的实际问题中,“文档”对应“用户的文本信息”,“用户特征”对应为“主题”,“词”代表“用户所对应的标签”。 LDA模型详细介绍请参考 运行步骤 cookies获取 打开chrome开发者工具,选择Network,勾选Preserve log 登陆weibo.cn,可找到名字为weibo.cn的文件,复制其中cookies即可 单用户分析 分析一个用户的用户特征 请配置 conf.cookies 为可用cookies 请配置 c
2021-11-07 14:42:20 19KB scrapy weibo lda Python
1
share-faved-weibo-to-blog 想必各位都在新浪微博上收藏了很多精华片段,可否分享出来给大家瞧瞧? 近日闲来没事,打算将收藏的微博放到上,博客是基于hexo搭建在github上,因此需要将收藏的微博 导出为markdown文件,然后让hexo渲染为静态文件,这个脚本的目的就是读取收藏的微博,然后按照格式生成markdown文件。 使用方法 前往新浪微博开放平台申请一个应用,替换脚本中的API_KEY、API_SECRET、REDIRECT_URI; 别忘了自己的微博账号和密码 感谢@lxyu 提供的新浪微博python 截图
2021-11-06 15:22:36 58KB Python
1