泰坦尼克号数据集分析
问题:有哪些因素会让船上的人生还率更高?
一、数据基本信息
#引入需要的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
#读取数据集
titanic_df = pd.read_csv('titanic-data.csv')
titanic_df.head()
舱房等级越高生还率越高,女性生还率高于男性,儿童生还率高于其他年龄段。但是此结论有一定的局限性,实际上泰坦尼克号上有2224名乘客,而此数据集只有891名乘客的数据,另外也并不知道样本是如何选取的,样本量也不大,如果不是随机抽样,那么这个结论就不可靠了,而且可能还有其他数据集中没有的变量影响着生还率,比如乘客的身高、体重等等。
2024-06-10 17:17:07
222KB
python
1