word源码java
hw5
一、作业要求
在HDFS上加载莎士比亚文集的数据文件(Shakespeare.txt),编写MapReduce程序进行词频统计,并按照单词出现次数从大到小排列,输出前100个高频单词,要求忽略大小写,忽略标点符号(punctuation.txt),忽略停词(stop-word-list),忽略数字,单词长度>=3。输出格式为"<排名>:<单词>,<次数>",例如:
1:
单词1,次数
2:
单词2,次数
...
100:
单词100,次数
【注】作业提交方式:git仓库地址或者相关文件的zip包
git仓库目录组织建议:
project
name
(例如wordcount)
|
+--
src
|
+--
target
|
+--
output
|
|
+--
result
(输出结果文件)
|
+--
pom.xml
|
+--
.gitignore(target目录下只保留jar文件,并忽略其它无关文件)
|
+--
readme.md
(对设计思路,实验结果等给出说明,并给出提交作业运行成功的WEB页面截图。可以进一步对性能、扩展性等方面存在的不足和
2022-05-23 08:11:13
4.48MB
系统开源
1