推论网络的结构
该项目的目标是对网页的结构进行分类,并根据频率和领域信息汇总这些结构。 该项目将使网页的重点抓取成为可能,并将帮助研究人员以网络规模提取数据。 由于数据集的庞大性和非结构化性,我们计划使用Hadoop生态系统中的工具(带有Tez,Apache Hive和HBase的Apache Pig)。
具体来说,具有相似html布局的页面将具有相似的html组件。 因此,叶节点的文档对象模型(DOM)路径大致描述了组件在页面渲染中的可视位置。 通过专门针对四个主要的视觉组件(例如按钮,图像,链接和视频),将生成XPath表达式的集合。 然后将基于路径结构和域信息对这些对象进行分组,然后计算网页的频率。
数据集
该项目使用的数据集来自2015年5月的网络抓取(通用抓取),其中包含超过159 TB的数据和超过20.5亿个网页。
学分
创意积分: :
Web存档数据积分:Common
2022-07-09 21:11:31
4.78MB
Java
1