搜狗数据的数据格式: 访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL 其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的 不同查询对应同一个用户 ID
2023-04-01 15:06:15 965KB 大数据
1
实验手册——搜狗搜索日志分析系统,压缩包里面是pdf格式和word格式的。 实验手册——搜狗搜索日志分析系统,可以练习使用hadoop离线分析。练手的吧。
2021-06-30 00:25:52 1.14MB 搜狗搜索日志
1
基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据的百度云链接失效无法下载,大家可以给我留言。
2020-01-04 03:14:55 3.28MB hive hadoop MapReduce 大数据离线分析项目
1
实验手册:搜狗搜索日志分析系统实现-Hadoop2.0-v1.2-noted
2019-12-21 21:38:30 896KB hadoop 搜狗搜索日志
1
本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。利用Hive等工具,完成30页的分析报告。
2019-12-21 19:55:55 1.05MB 搜狗日志分析 Hadoop hive Cloudera
1