数据接口:百度、谷歌、头条、微博指数,宏观数据,利率数据,货币汇率,千里马、独角兽公司,新闻联播文字稿,影视票房数据,高校名单,疫情数据… gopup (python3) 建议安装方法 pip install gopup 升级方法 pip install gopup --upgrade GoPUP 支持Python 3.7+,旨在使获取数据尽可能方便,主要用于学术研究目的。 GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。 文档:中文文档 快速开始 import gopup as gp df = gp.weibo_index(word="疫情", time_type="1hour") print(df) 数据仓库 指数数据 微博指数数据 百度指数数据 百度搜索数据 百度资讯指数 百度媒体指数 百度需求图谱 百度人群画像年龄分布 百度人群画像性别分布 百度人群画像兴趣分布 头条指数数据
2022-01-08 11:40:06 264KB Python Web Crawling
1
wordpress采集插件-crawling,目前正在使用中,5.32
2021-11-03 14:33:27 399KB wordpress采集插件 crawling
1
WordPress采集插件crawling_20170614_V1.1release最新版本。
2021-11-03 14:29:39 46B crawling WordPress 采集 爬虫
1
Website Name Crawling_Baidu_Academic 爬虫: 爬取百度学术 This websit based on Python Tornado, but i don't use tornado api: core/SelectDetail.py xueshu_search_academic(pn, search_content) 表结构 文章表 1. 文章ID article_id 2. 学术标题 academic_title 3. 学术链接 article_url 4. 学术内容 article_contents 5. 被引用量 reference_quantity 6. 被引用文章链接 reference_url 8. 发表刊物 publications 9. 刊物链接 publications_url 11. 时间
2021-10-29 19:58:06 421KB Python
1
bm25-排名-php 使用bm25排序算法对reuter的文档进行排序。 比较 479/6791
2021-09-02 01:13:13 11.3MB php scraper crawling bm25
1
Learn to run your application on single as well as multiple machines Customize search in your application as per your requirements Acquaint yourself with storing crawled webpages in a database and use them according to your needs
2021-07-26 22:02:42 2.14MB 爬虫、nutch
1
Detecting Near-Duplicates for Web Crawling 网页去重
2019-12-21 20:05:09 154KB simhash
1