1. 目标 通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上 爬虫和机器学习在Python中容易实现 在Linux环境下编写Python没有pyCharm便利 需要建立Python与HDFS的读写通道 2. 实现 安装Python模块pyhdfs 版本:Python3.6, hadoop 2.9 读文件代码如下 from pyhdfs import HdfsClient client=HdfsClient(hosts='ghym:50070')#hdfs地址 res=client.open('/sy.txt')#hdfs文件路径,根目录/ for r in
2021-10-25 15:53:20 74KB AND AS 操作
1
就是普通的波士顿房价,里面有特征值,乘客年龄,性别这些,和标签值,是否存活这些。希望有用,为什么一定要五十字呀
2021-10-24 20:41:19 34KB 深度学习 tensorflow 波士顿房价预测
1
天池比赛,由datawhale主办的金融风控数据集,可下载供学习参考使用,测试集部分,训练集部分已经上传至平台可下载
2021-10-23 20:28:07 41.33MB 数据挖掘
1
数据为沪深300的1分钟K线,时间从2009年至2020年8月,非常珍贵的1分钟数据,其中还包括开盘价、最高点、最低点、收盘价、成交量、成交金额。没有缺失数据,数据质量非常好。
2021-10-23 11:58:43 45.57MB python 量化 pandas 沪深300K线
1
本资源与另一个json转csv文件是配套的,可以互相转换,顺便附上符合转换规格的json文件。 如果需要csv文件的列提取重新制表功能,移步本人另一个csv文件列提取制表资源
2021-10-22 20:52:02 4KB python3 csv json 转换
1
包含8台风力电机1年的10min间隔SCADA运行数据,包括时间戳信息、风速信息和功率信息等。数据来源自某风电场群的1年SCADA真实运行数据,主要有4个维度信息分别为时间戳、风速、功率和风轮转速,并且给出风机参数说明罗列了各风机的风轮直径、额定功率和风轮转速范围等信息,该数据集从风机实际生产过程中收集,是风机在实际工况条件下运行的典型结果
1
2016年8月,包括起讫点经纬度,起始时间,订单ID,轨迹经纬度等
2021-10-20 22:06:04 43.69MB csv 数据分析 上海市
fer2013资源,测试可用 !
2021-10-20 22:05:00 287.16MB python
1
python对csv文件的操作、注意事项及详解(实际运行成功案例)
2021-10-20 22:04:59 2KB python csv
1
qq邮箱批量导入通讯录模板,qq邮箱导出来的一般是乱码,这个是修正好的,方法是通过excel 自由数据导入,最后再导出,如果嫌麻烦的可以直接下载下来用。
1