MapReduce_BankData
步骤
先运行Clean_Zh.java,在本地处理中文的问题。
使用命令行将已处理的文件传到HDFS(这一步没写在代码里,偷了个懒)
再运行Main.java
通达信数据原始数据
原始数据第二行的中文 和最后268行的中文,采用的GB2312编码,程序运行时产生乱码,导致不明BUG,其BUG造成的乱码,使行号数不对,且乱码无法参与代码的逻辑运算, 这个错十分的坑,故将中文删除。问题解决
删掉中文后,运行结果
中文乱码处理(问题解决)
不管是转utf8还是gb2312都是对文件的操作!但是在mapreduce机制里,他对文件的操作是自动完成的,我们用户接触到的已经是文件中每一行的具体内容了。这个时候由于原始文件的编码问题,每一行涉及中文的已经是乱码了,此时对这个乱码不管怎么转始终是乱码。
所以,因为我们无法在mapreduce的文件层面进行操作,那就只有
2022-04-14 22:21:57
852KB
Java
1