搜狗数据的数据格式: 访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL 其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的 不同查询对应同一个用户 ID
2023-04-01 15:06:15 965KB 大数据
1
基于搜狗搜索的微信公众号爬虫,使用requests模块访问公众号url链接,爬取相关文章(不能商用,要申请公众号主体同意方可进行相关操作),并用bs4模块解析获取的文章,并取得其中的合法内容
2022-05-06 13:25:00 4KB 爬虫 搜狗搜索 微信公众号 python
1
NULL 博文链接:https://onestopweb.iteye.com/blog/2288184
2022-03-27 14:48:37 453B 源码 工具
1
主要介绍了PHP简单获取网站百度搜索和搜狗搜索收录量的方法,涉及php网页文件的读取及正则替换的相关操作技巧,需要的朋友可以参考下
2022-03-27 14:44:23 41KB PHP 获取 网站 百度搜索
1
wechat_search api for wechat subscribe account and articles by sogou search install composer require ctwj\wechat_search_api example getInstance 获取实例 $instance = \Ctwj\WechatSearch\WechatSearch::->getInstance(); or $instance = \Ctwj\WechatSearch\WechatSearch::getInstance( [ 'cachePath' => 'path to save cache', //缓存路径,结尾需要友分隔符, 默认项目内 'cacheTime' => 10, //分钟数,为0时关闭代理,
2021-11-08 20:47:01 70KB PHP
1
实验手册——搜狗搜索日志分析系统,压缩包里面是pdf格式和word格式的。 实验手册——搜狗搜索日志分析系统,可以练习使用hadoop离线分析。练手的吧。
2021-06-30 00:25:52 1.14MB 搜狗搜索日志
1
基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据的百度云链接失效无法下载,大家可以给我留言。
2020-01-04 03:14:55 3.28MB hive hadoop MapReduce 大数据离线分析项目
1
实验手册:搜狗搜索日志分析系统实现-Hadoop2.0-v1.2-noted
2019-12-21 21:38:30 896KB hadoop 搜狗搜索日志
1
本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。利用Hive等工具,完成30页的分析报告。
2019-12-21 19:55:55 1.05MB 搜狗日志分析 Hadoop hive Cloudera
1