大数据期末课设~电商网站日志数据分析 主要利用spark和python结合分析实践具体案例 Word很全面 共有52页 可以直接作为期末课设上交
1
网站日志查看器 很好用的服务器日志查看工具,完美支持IIS、Apache、Nginx,分析日志文件,超强秒杀其他日志工具。
2022-12-06 10:28:48 1.26MB 网站日志 iis
1
适用于windows7及以上x64版本系统,支持批量对日志文件进行解读并对各类搜索引擎访问记录、异常状态码相关访问记录等seo关键信息加以标记,并可以作为条件针对性的筛选出有问题的页面,以及蜘蛛访问轨迹,可以分析网站日志统计出各类蜘蛛访问频次及类型、支持日志条件筛选展示、本地蜘蛛ip池、蜘蛛ip验证等seo基本功能,通过工具可以大致了解蜘蛛对网站的基本页面爬取,搜索引擎蜘蛛爬取页面是否状态异常等情况 同类软件可参考在线工具loghao,
1
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始数据进行清洗,以便后续进行统计分析; 使用Hive对清洗后的数据进行统计分析; 使用Sqoop把Hive产生的统计结果导出到mysql中; 两个日志文件,一共有200MB,符合大数据量级,可以作为推荐系统数据集和hadoop测试集。
2022-05-09 19:14:04 13.7MB 数据分析 hadoop 文档资料 python
Hadoop网站日志分析源码(hive命令).txt
2022-05-09 19:14:00 2KB hive hadoop 源码软件 数据仓库
基于Hadoop部署实践对网站日志分析 1. 项目概述 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 Hadoop插件安装及部署 第一步:Hadoop环境部署和源数据准备 安装好VMware(查看) 第二步:使用python开发的mapper reducer进行数据处理。 第三步:创建hive数据库,将处理的数据导入hive数据库 第四步:将分析数据导入mysql 3. 详细实现步骤操作纪要 3.1 hadoop环境准备 首先开启Hadoop集群:start-all.sh:开启所有的Hadoop所有进程,在主节点上进行 NameNode它是Hadoop 中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。 Secondary NameNode.....
2022-05-09 19:13:59 1.89MB 文档资料 hadoop 大数据 分布式
本文以上海交通大学为例,介绍了利用hadoop大数据平台,存储并分析校园网内数千网站日志的系统设计和实现.
2021-12-08 19:43:27 215KB hadoop 大数据
1
大数据综合案例-网站日志分析-附件资源
2021-12-08 15:33:22 23B
1
网站日志 web log 样本
2021-11-23 10:34:19 10KB 网站日志 web log 样本
1
可计算单个、多个文件夹内日志的访问量、状态码、IP地址
2021-11-11 16:00:41 43KB 日志分析
1