O Danych¶
Dane o pasażerach Titanica
Zbiór danych zawiera informacje o pasażerach RMS Titanic, który zatonął 15 kwietnia 1912 roku po zderzeniu z górą lodową. Dane obejmują takie atrybuty jak klasa podróży, wiek, płeć, liczba rodzeństwa/małżonków na pokładzie, liczba rodziców/dzieci na pokładzie, cena biletu oraz miejsce zaokrętowania.
Zbiór zawiera także informację o tym, czy pasażer przeżył katastrofę.
Titanic przewoził ponad 2,200 osób, z czego ponad 1,500 zginęło, co czyni tę katastrofę jedną z najbardziej tragicznych w historii morskiej.
Kolumny:
- pclass - Klasa biletu
- survived - Czy pasażer przeżył katastrofę
- name - Imię i nazwisko pasażera
- sex - Płeć pasażera
- age - Wiek pasażera
- sibsp - Liczba rodzeństwa/małżonków na pokładzie
- parch - Liczba rodziców/dzieci na pokładzie
- ticket - Numer biletu
- fare - Cena biletu
- cabin - Numer kabiny
- embarked - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)
- boat - Numer łodzi ratunkowej
- body - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)
- home.dest - Miejsce docelowe
Ogólny przegląd danych¶
<class 'pandas.core.frame.DataFrame'> RangeIndex: 1310 entries, 0 to 1309 Data columns (total 14 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 pclass 1309 non-null float64 1 survived 1309 non-null float64 2 name 1309 non-null object 3 sex 1309 non-null object 4 age 1046 non-null float64 5 sibsp 1309 non-null float64 6 parch 1309 non-null float64 7 ticket 1309 non-null object 8 fare 1308 non-null float64 9 cabin 295 non-null object 10 embarked 1307 non-null object 11 boat 486 non-null object 12 body 121 non-null float64 13 home.dest 745 non-null object dtypes: float64(7), object(7) memory usage: 143.4+ KB
Zobaczmy 5 pierwszych wyników¶
| pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1.0 | 1.0 | Allen, Miss. Elisabeth Walton | female | 29.0000 | 0.0 | 0.0 | 24160 | 211.3375 | B5 | S | 2 | NaN | St Louis, MO |
| 1 | 1.0 | 1.0 | Allison, Master. Hudson Trevor | male | 0.9167 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | 11 | NaN | Montreal, PQ / Chesterville, ON |
| 2 | 1.0 | 0.0 | Allison, Miss. Helen Loraine | female | 2.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
| 3 | 1.0 | 0.0 | Allison, Mr. Hudson Joshua Creighton | male | 30.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | 135.0 | Montreal, PQ / Chesterville, ON |
| 4 | 1.0 | 0.0 | Allison, Mrs. Hudson J C (Bessie Waldo Daniels) | female | 25.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
Zobaczmy 5 ostatnich rekordów¶
| pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1305 | 3.0 | 0.0 | Zabour, Miss. Thamine | female | NaN | 1.0 | 0.0 | 2665 | 14.4542 | NaN | C | NaN | NaN | NaN |
| 1306 | 3.0 | 0.0 | Zakarian, Mr. Mapriededer | male | 26.5 | 0.0 | 0.0 | 2656 | 7.2250 | NaN | C | NaN | 304.0 | NaN |
| 1307 | 3.0 | 0.0 | Zakarian, Mr. Ortin | male | 27.0 | 0.0 | 0.0 | 2670 | 7.2250 | NaN | C | NaN | NaN | NaN |
| 1308 | 3.0 | 0.0 | Zimmerman, Mr. Leo | male | 29.0 | 0.0 | 0.0 | 315082 | 7.8750 | NaN | S | NaN | NaN | NaN |
| 1309 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
Zobaczmy 5 losowych rekordów¶
| pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 450 | 2.0 | 0.0 | Hodges, Mr. Henry Price | male | 50.0 | 0.0 | 0.0 | 250643 | 13.0000 | NaN | S | NaN | 149.0 | Southampton |
| 1058 | 3.0 | 0.0 | Nieminen, Miss. Manta Josefina | female | 29.0 | 0.0 | 0.0 | 3101297 | 7.9250 | NaN | S | NaN | NaN | NaN |
| 306 | 1.0 | 0.0 | White, Mr. Percival Wayland | male | 54.0 | 0.0 | 1.0 | 35281 | 77.2875 | D26 | S | NaN | NaN | Brunswick, ME |
| 54 | 1.0 | 1.0 | Carter, Master. William Thornton II | male | 11.0 | 1.0 | 2.0 | 113760 | 120.0000 | B96 B98 | S | 4 | NaN | Bryn Mawr, PA |
| 805 | 3.0 | 1.0 | Foo, Mr. Choong | male | NaN | 0.0 | 0.0 | 1601 | 56.4958 | NaN | S | 13 | NaN | Hong Kong New York, NY |
| pclass | survived | age | sibsp | parch | fare | body | |
|---|---|---|---|---|---|---|---|
| count | 1309.000000 | 1309.000000 | 1046.000000 | 1309.000000 | 1309.000000 | 1308.000000 | 121.000000 |
| mean | 2.294882 | 0.381971 | 29.881135 | 0.498854 | 0.385027 | 33.295479 | 160.809917 |
| std | 0.837836 | 0.486055 | 14.413500 | 1.041658 | 0.865560 | 51.758668 | 97.696922 |
| min | 1.000000 | 0.000000 | 0.166700 | 0.000000 | 0.000000 | 0.000000 | 1.000000 |
| 25% | 2.000000 | 0.000000 | 21.000000 | 0.000000 | 0.000000 | 7.895800 | 72.000000 |
| 50% | 3.000000 | 0.000000 | 28.000000 | 0.000000 | 0.000000 | 14.454200 | 155.000000 |
| 75% | 3.000000 | 1.000000 | 39.000000 | 1.000000 | 0.000000 | 31.275000 | 256.000000 |
| max | 3.000000 | 1.000000 | 80.000000 | 8.000000 | 9.000000 | 512.329200 | 328.000000 |
{'pclass': 3,
'survived': 2,
'name': 1307,
'sex': 2,
'age': 98,
'sibsp': 7,
'parch': 8,
'ticket': 929,
'fare': 281,
'cabin': 186,
'embarked': 3,
'boat': 27,
'body': 121,
'home.dest': 369}
WSTĘPNE OBSERWACJE¶
Z opisu wynika, że na Titanicu było około 2200 osób, a w danych jest tylko 1310 soób, ponieważ rekordy są w przedziale 0-1309. Brakuje niektórych danych. Byli tam w wiekszości ludzie młodzi (średnia wieku wynosi niecałe 30 lat). Ciekawe jest że ceny biletów są bardzo różne. Jeśli chodzi o najmłodszego pasażera to było to 2-miesięczne dziecko, a najstarszy pasażer miał 80 lat. Widać też, że odnaleziona 328 ciał. Łodzi ratunkowych było tylko 27.¶
Analiza brakujących wartości¶
pclass 1 survived 1 name 1 sex 1 age 264 sibsp 1 parch 1 ticket 1 fare 2 cabin 1015 embarked 3 boat 824 body 1189 home.dest 565 dtype: int64
Brakujących danych nie jestem w stanie uzupełnić. Jednak widać wyraźnie że dużo osób nie ma podane wieku i kabiny.¶
Analiza poszczególnych zmiennych¶
Zobaczmy jak na wykresach wyglądają poszczególne kolumny¶
array([[<Axes: title={'center': 'pclass'}>,
<Axes: title={'center': 'survived'}>,
<Axes: title={'center': 'age'}>],
[<Axes: title={'center': 'sibsp'}>,
<Axes: title={'center': 'parch'}>,
<Axes: title={'center': 'fare'}>],
[<Axes: title={'center': 'body'}>, <Axes: >, <Axes: >]],
dtype=object)
ilość osób które przeżyły 500.0
Wskaźnik przeżywalności według płci: sex female 72.75% male 19.10% Name: survived, dtype: object
Sprawdźmy skąd płynęło najwięcej ludzi¶
S 914 C 270 Q 123 Name: embarked, dtype: int64
Wnioski:¶
Najwięcej osób wyruszyło w rejs w porcie Southampton, następnie w Cherbourg, a najmniej w Queenstown. Najwięcej osób było w 3 klasie, a najmniej w drugiej. Więcej osób zginęło niż przeżyło. Zdecydowana większość pasażerów to osoby mlode. Więcej kobiet przeżeyło katastrofę niż mężczyzn. Większość osób na pokładzie płynęła bez rodziny lub/i małżonka. Większośc biletów kosztowała mniej niż 50 jednostek danej waluty.¶
Widać że są szalupy w których jest kilkanaście osób, ale są też szalupy w których jest tylko kilka osób¶
Wartości odstające¶
<Axes: >