上传者: 42113456
|
上传时间: 2021-12-26 21:57:03
|
文件大小: 27KB
|
文件类型: -
##MapReduce 编程:使用 hadoop 计算维基百科文章的内部 PageRank。
本课程将向您介绍编程和数据操作的MapReduce模型。 它将提供分析真实数据源的有限实践经验:。
###数据:
出于本次作业的目的,您已获得一组荷兰语维基百科文章,这些文章存储为单个.xml文档。
文档格式如下:
...
< title >Foo</ title >
Lorem ipsum dolor sit amet...
< title >Bar</ title >
Lorem ipsum dolor sit [[Foo|