Nyc-Taxi-Kaggle-挑战
目标
Kaggle竞赛预测纽约出租车的行驶时间。 该项目的报告在capstone.pdf。 (在这个项目中,我提供了许多链接,如果您是初学者,可以通过这些链接来弄清楚您的概念,如果不理解的话,可以通过project和readme中提供的链接和pdf来了解。)
问题陈述
在本报告中,我们使用来自纽约市出租车和高级轿车委员会的数据来考察Kaggle竞赛,该竞赛要求竞争对手预测纽约市出租车旅行的总行驶时间(trip_duration)。 Kaggle提供的数据是作为CSV文件提供的结构化数据。 CSV文件中的数据包括多种格式:时间戳,文本和数字数据。 这是回归分析,因为输出(总行驶时间)是数字。 我将使用几种机器学习方法来完成预测任务,这些方法是线性回归,k最近邻回归,随机森林和XGBoost。 将使用均方根对数误差对模型进行评估。
总览
我使用Jupyter_Notebook在dekstop上执行此项目,并且在使用python的远程服务器上也无需使用Jupyter_notebook来执行。
软件和库
Python 3
Scikit-learn:Pyt
1