Pandas保存数据为HDF5格式时应注意数据类型
在平常的数据存取过程中,我们常常使用csv格式的文件,此格式的文件具有可直接打开、直接编辑等等优点,且使用Python读取csv格式的文件的速度比读取txt格式的更快。由于最近常常需要反复处理几个百万行乃至千万行的数据文件,所以即使我使用了csv格式的文件,读取速度也有显得有些慢,秉持着着“节约时间就等于延长生命”的精神,我四处寻找能够进一步减少从文件中读取数据的时间的方法。这时,我看到了文章: Pandas 中 read_csv 与 read_hdf 速度对比,于是决定着手尝试使用HDF5格式,但是,最初的结果显示使用HDF5格式的文件提升
1