3.1 需求分析 需求分析是任何一个项目开发过程中的一个决定性环节,一份完整好的需求分 析,开发者可以准确的熟悉整个软件或者系统的功能,要求,设计条件等具体要求, 进而确定项目要去完成的具体模块。需求分析对整个开发国政具有决定性,是项目 做好,高质的重要保证。 3.1.1 开发背景及目标 本文的数据来源于校园区域内学生上网搜狗搜索日志,每条日志通常都代表一 个学生的访问行为,本位所使用的数据是搜狗一天内的 500 万条搜索日志记录,其 格式为:访问时间,用户 ID,查询词,该 URL 在返回结果中的排名,点击顺序号, 点击 URl。 其中用户 ID 是根据用户使用浏览器访问搜索引擎的自动复制,同一次使用浏 览器输入的不同查询词对应于同一 ID。五条用户查询记录如表 3.1 所示: 表 3.1 用户查询记录 访问时间 用户 ID 查询词 返回结果 排名 点击顺 序号 点击 URL 2011123000 0005 f31f594bd1f31472 98bd952ba35de84d 傲视千雄 3 1 http://web. 4399.com 2011123000 0017 2ebbc38bf56753b0 9c945de813a443c3 人在囧途 2 1 http://tv.s ogou.com 2011123000 0020 072fa3643c91b29b d586aff29b402161 12306.cn 1 1 http://www. 12306.cn 2011123000 0016 16c3b69cc93e838f 89895b49643cef1d 王小丫 6 1 http://www. 94caobi.com 2011123000 0018 3d1acc7235374d53 1de1ca885df5e711 满江红 2 2 http://www. baidu.com 从上面的这几条日志中,我们可以得到很多有价值的信息,例如搜索者的 ID、 访问的时间、查询的关键词、点击的 URL 等。 毫无疑问,搜狗搜索日志中包含了
2025-04-21 00:22:28 1.58MB hadoop 上网行为分析 搜索日志
1
搜狗数据的数据格式: 访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL 其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的 不同查询对应同一个用户 ID
2023-04-01 15:06:15 965KB 大数据
1
面向网络搜索日志的发布方法研究 安全建设 业务风控 威胁情报 区块链 区块链
2021-09-07 14:00:06 5.64MB 漏洞分析 web安全 云安全
搜狗五百万数据,是经过处理后的搜狗搜索引擎生产数据,具有真实性,大数据性,能够较好的满足分布式计算应用开发课程设计的数据要求。
2021-09-06 20:44:50 97.75MB bigdata log
1
实验手册——搜狗搜索日志分析系统,压缩包里面是pdf格式和word格式的。 实验手册——搜狗搜索日志分析系统,可以练习使用hadoop离线分析。练手的吧。
2021-06-30 00:25:52 1.14MB 搜狗搜索日志
1
此文档是毕业设计基于大数据的学生上网行为分析系统设计说明书,其中利用的是搜狗搜索日志,从多个维度分析了学生上网数据。
2021-05-18 15:02:50 1.58MB 大数据 hadoop 上网行为分析 搜索日志
1
基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据的百度云链接失效无法下载,大家可以给我留言。
2020-01-04 03:14:55 3.28MB hive hadoop MapReduce 大数据离线分析项目
1
实验手册:搜狗搜索日志分析系统实现-Hadoop2.0-v1.2-noted
2019-12-21 21:38:30 896KB hadoop 搜狗搜索日志
1
这是网上找的一个搜狗搜索的日志记录,总共有五百万条用户的搜索信息,可以为练习大数据的数据源,这是网上找的一个搜狗搜索的日志记录,总共有五百万条用户的搜索信息,可以为练习大数据的数据源,这是网上找的一个搜狗搜索的日志记录,总共有五百万条用户的搜索信息,可以为练习大数据的数据源,
2019-12-21 20:06:53 242.78MB 日志记录
1
本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。利用Hive等工具,完成30页的分析报告。
2019-12-21 19:55:55 1.05MB 搜狗日志分析 Hadoop hive Cloudera
1