1. 目标
通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上
爬虫和机器学习在Python中容易实现
在Linux环境下编写Python没有pyCharm便利
需要建立Python与HDFS的读写通道
2. 实现
安装Python模块pyhdfs
版本:Python3.6, hadoop 2.9
读文件代码如下
from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路径,根目录/
for r in
1