python 数据分析 pandas
2022-06-16 10:15:30 7.27MB python 数据分析 pandas
1
一、对DataFrame的认知 DataFrame的本质是行(index)列(column)索引+多列数据。 为了简化理解,我们不妨换个思路… 现实中,为了简化对一件事物的描述,我们会选择几个特征。 例如,从(性别、身高、学历、职业、爱好..)等角度去刻画一个人,这些“角度”即为“特征”。 其中,不同的行表示不同的记录;列代表特征,不同记录因各个特征之间的差异而不同。 DataFrame默认索引是序号(0,1,2…),可以理解成位置索引。一般我们用id标识不同记录,不会改变index。但为了理解不同特征(列)含义,我们往往会重新指定column。 一些简易但不算严谨的理解是: 行列 行 –
2022-06-14 21:01:34 74KB AND AS dataframe
1
数据集成:将不同表的数据通过主键进行连接起来,方便对数据进行整体的分析。 两张表:ReaderInformation.csv,ReaderRentRecode.csv ReaderInformation.csv: ReaderRentRecode.csv: pandas读取csv文件,并进行csv文件合并处理: # -*- coding:utf-8 -*- import csv as csv import numpy as np # ------------- # csv读取表格数据 # ------------- ''' csv_file_object = csv.reader(c
2022-06-13 17:09:18 190KB AND AS c
1
pandas.fillna函数
2022-06-10 18:07:28 12KB 学习笔记 缺失值填充 数据分析 python
1
Nyc-Taxi-Kaggle-挑战 目标 Kaggle竞赛预测纽约出租车的行驶时间。 该项目的报告在capstone.pdf。 (在这个项目中,我提供了许多链接,如果您是初学者,可以通过这些链接来弄清楚您的概念,如果不理解的话,可以通过project和readme中提供的链接和pdf来了解。) 问题陈述 在本报告中,我们使用来自纽约市出租车和高级轿车委员会的数据来考察Kaggle竞赛,该竞赛要求竞争对手预测纽约市出租车旅行的总行驶时间(trip_duration)。 Kaggle提供的数据是作为CSV文件提供的结构化数据。 CSV文件中的数据包括多种格式:时间戳,文本和数字数据。 这是回归分析,因为输出(总行驶时间)是数字。 我将使用几种机器学习方法来完成预测任务,这些方法是线性回归,k最近邻回归,随机森林和XGBoost。 将使用均方根对数误差对模型进行评估。 总览 我使用Jupyter_Notebook在dekstop上执行此项目,并且在使用python的远程服务器上也无需使用Jupyter_notebook来执行。 软件和库 Python 3 Scikit-learn:Pyt
2022-06-05 16:04:07 23.28MB python machine-learning deep-learning random-forest
1
今天小编就为大家分享一篇利用pandas将非数值数据转换成数值的方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2022-06-04 11:29:20 55KB pandas 非数值 数据 数值
1
今天小编就为大家分享一篇使用pandas的box_plot去除异常值,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2022-06-03 16:41:29 56KB pandas box_plot 异常值
1
单位电脑是内网,就使用tar.gz安装,外网下载比较慢,就把下载好的跟大家分享一下。包含pandas,以及依赖的numpy、python-dateutil、pytz、six;包含xlrd、xlwt。 安装方法就是1.解压每个tar.gz;2.使用cmd分别进入每个文件夹;3.使用 python setup.py install 执行安装即可。
2022-06-02 13:49:02 12.67MB pandas xlrd xlwt tar.gz
1
python pandas库实现关联规则挖掘传统算法-eclat算法 数据转换 频繁项集查找
2022-05-31 09:54:43 67KB eclat python pandas mushroom
1
下载时需将pandas下载到Python的安装目录下scripts目录下 打开cmd,在cmd下执行python -m pip install --upgrade pip 然后在该路径下执行以下的命令:pip install pandas-1.0.3-cp37-cp37m-win_amd64.whl
2022-05-25 17:59:51 8.93MB python
1