O Danych¶

Dane o pasażerach Titanica

Zbiór danych zawiera informacje o pasażerach RMS Titanic, który zatonął 15 kwietnia 1912 roku po zderzeniu z górą lodową. Dane obejmują takie atrybuty jak klasa podróży, wiek, płeć, liczba rodzeństwa/małżonków na pokładzie, liczba rodziców/dzieci na pokładzie, cena biletu oraz miejsce zaokrętowania.

Zbiór zawiera także informację o tym, czy pasażer przeżył katastrofę.

Titanic przewoził ponad 2,200 osób, z czego ponad 1,500 zginęło, co czyni tę katastrofę jedną z najbardziej tragicznych w historii morskiej.

Kolumny:

  • pclass - Klasa biletu
  • survived - Czy pasażer przeżył katastrofę
  • name - Imię i nazwisko pasażera
  • sex - Płeć pasażera
  • age - Wiek pasażera
  • sibsp - Liczba rodzeństwa/małżonków na pokładzie
  • parch - Liczba rodziców/dzieci na pokładzie
  • ticket - Numer biletu
  • fare - Cena biletu
  • cabin - Numer kabiny
  • embarked - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)
  • boat - Numer łodzi ratunkowej
  • body - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)
  • home.dest - Miejsce docelowe

Ogólny przegląd danych¶

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1310 entries, 0 to 1309
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   float64
 1   survived   1309 non-null   float64
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   float64
 6   parch      1309 non-null   float64
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(7), object(7)
memory usage: 143.4+ KB

Zobaczmy 5 pierwszych wyników¶

pclass survived name sex age sibsp parch ticket fare cabin embarked boat body home.dest
0 1.0 1.0 Allen, Miss. Elisabeth Walton female 29.0000 0.0 0.0 24160 211.3375 B5 S 2 NaN St Louis, MO
1 1.0 1.0 Allison, Master. Hudson Trevor male 0.9167 1.0 2.0 113781 151.5500 C22 C26 S 11 NaN Montreal, PQ / Chesterville, ON
2 1.0 0.0 Allison, Miss. Helen Loraine female 2.0000 1.0 2.0 113781 151.5500 C22 C26 S NaN NaN Montreal, PQ / Chesterville, ON
3 1.0 0.0 Allison, Mr. Hudson Joshua Creighton male 30.0000 1.0 2.0 113781 151.5500 C22 C26 S NaN 135.0 Montreal, PQ / Chesterville, ON
4 1.0 0.0 Allison, Mrs. Hudson J C (Bessie Waldo Daniels) female 25.0000 1.0 2.0 113781 151.5500 C22 C26 S NaN NaN Montreal, PQ / Chesterville, ON

Zobaczmy 5 ostatnich rekordów¶

pclass survived name sex age sibsp parch ticket fare cabin embarked boat body home.dest
1305 3.0 0.0 Zabour, Miss. Thamine female NaN 1.0 0.0 2665 14.4542 NaN C NaN NaN NaN
1306 3.0 0.0 Zakarian, Mr. Mapriededer male 26.5 0.0 0.0 2656 7.2250 NaN C NaN 304.0 NaN
1307 3.0 0.0 Zakarian, Mr. Ortin male 27.0 0.0 0.0 2670 7.2250 NaN C NaN NaN NaN
1308 3.0 0.0 Zimmerman, Mr. Leo male 29.0 0.0 0.0 315082 7.8750 NaN S NaN NaN NaN
1309 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

Zobaczmy 5 losowych rekordów¶

pclass survived name sex age sibsp parch ticket fare cabin embarked boat body home.dest
450 2.0 0.0 Hodges, Mr. Henry Price male 50.0 0.0 0.0 250643 13.0000 NaN S NaN 149.0 Southampton
1058 3.0 0.0 Nieminen, Miss. Manta Josefina female 29.0 0.0 0.0 3101297 7.9250 NaN S NaN NaN NaN
306 1.0 0.0 White, Mr. Percival Wayland male 54.0 0.0 1.0 35281 77.2875 D26 S NaN NaN Brunswick, ME
54 1.0 1.0 Carter, Master. William Thornton II male 11.0 1.0 2.0 113760 120.0000 B96 B98 S 4 NaN Bryn Mawr, PA
805 3.0 1.0 Foo, Mr. Choong male NaN 0.0 0.0 1601 56.4958 NaN S 13 NaN Hong Kong New York, NY
pclass survived age sibsp parch fare body
count 1309.000000 1309.000000 1046.000000 1309.000000 1309.000000 1308.000000 121.000000
mean 2.294882 0.381971 29.881135 0.498854 0.385027 33.295479 160.809917
std 0.837836 0.486055 14.413500 1.041658 0.865560 51.758668 97.696922
min 1.000000 0.000000 0.166700 0.000000 0.000000 0.000000 1.000000
25% 2.000000 0.000000 21.000000 0.000000 0.000000 7.895800 72.000000
50% 3.000000 0.000000 28.000000 0.000000 0.000000 14.454200 155.000000
75% 3.000000 1.000000 39.000000 1.000000 0.000000 31.275000 256.000000
max 3.000000 1.000000 80.000000 8.000000 9.000000 512.329200 328.000000
{'pclass': 3,
 'survived': 2,
 'name': 1307,
 'sex': 2,
 'age': 98,
 'sibsp': 7,
 'parch': 8,
 'ticket': 929,
 'fare': 281,
 'cabin': 186,
 'embarked': 3,
 'boat': 27,
 'body': 121,
 'home.dest': 369}

WSTĘPNE OBSERWACJE¶

Z opisu wynika, że na Titanicu było około 2200 osób, a w danych jest tylko 1310 soób, ponieważ rekordy są w przedziale 0-1309. Brakuje niektórych danych. Byli tam w wiekszości ludzie młodzi (średnia wieku wynosi niecałe 30 lat). Ciekawe jest że ceny biletów są bardzo różne. Jeśli chodzi o najmłodszego pasażera to było to 2-miesięczne dziecko, a najstarszy pasażer miał 80 lat. Widać też, że odnaleziona 328 ciał. Łodzi ratunkowych było tylko 27.¶

Analiza brakujących wartości¶

pclass          1
survived        1
name            1
sex             1
age           264
sibsp           1
parch           1
ticket          1
fare            2
cabin        1015
embarked        3
boat          824
body         1189
home.dest     565
dtype: int64

Brakujących danych nie jestem w stanie uzupełnić. Jednak widać wyraźnie że dużo osób nie ma podane wieku i kabiny.¶

Analiza poszczególnych zmiennych¶

Zobaczmy jak na wykresach wyglądają poszczególne kolumny¶

array([[<Axes: title={'center': 'pclass'}>,
        <Axes: title={'center': 'survived'}>,
        <Axes: title={'center': 'age'}>],
       [<Axes: title={'center': 'sibsp'}>,
        <Axes: title={'center': 'parch'}>,
        <Axes: title={'center': 'fare'}>],
       [<Axes: title={'center': 'body'}>, <Axes: >, <Axes: >]],
      dtype=object)
No description has been provided for this image
ilość osób które przeżyły
500.0
Wskaźnik przeżywalności według płci:
sex
female    72.75%
male      19.10%
Name: survived, dtype: object
Sprawdźmy skąd płynęło najwięcej ludzi¶
S    914
C    270
Q    123
Name: embarked, dtype: int64

Wnioski:¶

Najwięcej osób wyruszyło w rejs w porcie Southampton, następnie w Cherbourg, a najmniej w Queenstown. Najwięcej osób było w 3 klasie, a najmniej w drugiej. Więcej osób zginęło niż przeżyło. Zdecydowana większość pasażerów to osoby mlode. Więcej kobiet przeżeyło katastrofę niż mężczyzn. Większość osób na pokładzie płynęła bez rodziny lub/i małżonka. Większośc biletów kosztowała mniej niż 50 jednostek danej waluty.¶
No description has been provided for this image
Widać że są szalupy w których jest kilkanaście osób, ale są też szalupy w których jest tylko kilka osób¶

Wartości odstające¶

<Axes: >
No description has been provided for this image
Widać że ponad połowa osób na pokładzie miała mniej niż 30 lat. Były pojedyncze osoby mające ponad 66 lat¶
No description has been provided for this image
Większość biletów kosztowała do 50 jednostek danej waluty, ale są też bilety kosztujące nawet 200 jednostek danej walut.¶

Analiza korelacji między kolumnami¶

No description has been provided for this image
W większości przypadków nie widzimy korelacji. Najbardziej widać odwróconą korelację między klasa a ceną biletu.¶

Wnioski¶

Dane, które otrzymaliśmy nie są kompletne. Jednak te dane które mamy umozliwiają nam na dojście do pewnych wniosków:¶

Większość osób nie przeżyło katastrofy. W większości były to osoby młode i mężczyżni. W większości pasażerowie mieli bilety klasy trzeciej, najtańszej. Wszyscy wsiedli na Titanica w trzech różnych portach, najwięcej w porcie Southampton. Większość z nich płynęła bez rodzin. Ponad połowa pasażerów zginęła. Odnaleziono jedynie co 6 ciało. Szalup ratunkowych było tylko 27, o wiele za mało aby uratować chociaż połowę pasażerów.¶