网络爬虫 该存储库包含Otus Data Engineer课程的最终工作的源代码。 该项目是专注于Web的爬网程序,可递归地爬网网站。 它包含3个部分: 提取程序是一个nodejs应用程序。 它从frontier RMQ队列中读取URL,在选定的浏览器中打开页面,并将其内容存储在htmls kafka主题(HTML)和screenshots minio bucket(PNG)中。 提取程序是flink作业。 它从htmls kafka主题中读取HTML文档,提取内部链接并将其推入frontier RMQ队列。 该服务还实现了使用MapState消除重复URL(DUE)的逻辑。 运行程序是运行爬网的python脚本。 如何启动搜寻 docker-compose build ; docker-compose up -d (等待〜20秒); docker-compose run -v
2021-12-13 09:42:25 50KB JavaScript
1
微博情感分析和爬虫 微博是中国最具影响力的社交网站之一,拥有大量的中国用户。 它的功能类似于Twitter,当我爬网时,我什至发现微博程序员也使用了Twitter的一些变量名。 因此,如果您不懂中文,则可以查看此存储库的模型设计,而无需检查已爬网的内容(推文,推文主题等) 。 进行情感分析可以将用户分类为各种类别,并将相应的广告推送给他们。 我选择进行的情绪分析是将用户分为真实用户和机器人。 根据有关微博机器人检测的大多数论文,他们使用的方法是通过对用户的各种指标(关注度,粉丝数,平均推文时间等)进行逻辑回归对用户进行分类。 我认为这种方法的准确性不高,并且对于不同的测试集不稳定。 此类任务需要NLP模型的帮助,因为bot和真实人之间的最大区别是他们编写推文的行为和习惯。 请看一下这些colab笔记本: 以及 模型输入输出的结构 Input │── User information me
2021-12-11 15:23:39 59KB
1
针对爬虫程序,我这里用C#也写了一下。相比较而言,c#的程序比较原始一些。
2021-12-10 13:02:25 71KB c# 源码 爬虫程序
1
分享完整的驴妈妈游记采集爬虫源码,可直接使用,爬取字段包括标题、作者和游记正文等字段。
2021-12-09 16:04:04 2KB 驴妈妈游记
1
jianshu_spider 爬取简x专题、作者和文章摘要数据的爬虫 采集说明 主要收集的数据如下 专题:ID、名称、文章数、粉丝数 作者:ID、昵称、文字总数、粉丝数、喜欢数 文章:ID、标题、文字数、阅读数、喜欢数、评论数、赞赏数、售价、购买量及发布时间 运行环境 Python 3.6.5 运行方式 新建名为 jianshu 的数据库,执行 jianshu.sql 简历数据库表结构 运行 GetCategories.py,获取所有专题数据 运行 GetArticles.py,轮循已获取的专题数据,分别抓取对应专题下所有的文章数据 Issue 未加入多线程和协程等技术,导致目前采集效率非常低下。由于机制的原因,GetArticles.py 在采集过程中需要根据请求结果判断是否存在下一页数据,进而判断是否发起下一次请求
2021-12-06 20:58:14 11KB Python
1
[Python爬虫实例项目]使用Python3+scrapy+pymysql爬取某电影网站数万条数据到MySQL数据库源码
2021-12-02 23:46:08 10KB 爬虫 Python3 scrapy
1
这里是一个用python写的百度贴吧和糗事百科的爬虫源代码
2021-12-01 23:11:40 12KB python 爬虫 源码
1
功能:连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括了用户微博的所有数据,主要有用户信息和微博信息两大类,前者包含用户昵称、关注数、粉丝数、微博数等等;后者包含微博正文、发布时间、发布工具、评论数等等,因为内容太多,这里不再赘述。
2021-12-01 20:41:34 27KB 微博 爬虫
1
网络爬虫 源码 爬搜狐新闻
2021-11-25 19:39:09 1.96MB 网络爬虫 源码 爬搜狐新闻
1
dianping scrapy抓取数据存储至本地mysql数据库 基于python开发,采用scrapy,数据存储至本地数据库(或excel表格) 程序的主要目的是完成抓取和分析的任务同时学习爬虫相关知识,所以在细节处理上略有不足,但考虑到最终的目的是记录自己的学习,另外帮助到他人学习,所以这些细节无关紧要(毕竟不是面向用户的程序)。 程序还有建立商家-用户点评的表格还在进行中... 也许你可以在这里找到一些帮助,比如:一次返回两个,多个item,切割中文,中文转数字等问题 1)一次返回两个、多个item 在pipelines.py文件中,可以看到。如果是不同的spider返回的,直接根据spider的name来判断即可 elif isinstance(item, User_shopItem): 2)而一个spider返回两个、多个item,则通过item的name来判断(item的
2021-11-23 14:38:23 3.69MB Python
1