Esercizio 1
Si consideri il dataset che riporta i dati realtivi ai voli partiti dall’aeroporto di Atlanta nell’Ottobre 2004. Tra le diverse variabili, quelle di interesse sono Actual_flight_time
e Scheduled_flight_time
che riportano i tempi di volo effettivi e previsti e Destanation_city
che riporta la città di destinazione.
- (2 punti) Si importi il dataset in R e si verifichi la correttezza de contenuto. I voli con
Actual_flight_time
nullo sono quelli cancellati: si rimuovano dal dataset. - (1 punti) Si calcolino media, quartili e deviazione standard delle variabili
Actual_flight_time
eScheduled_flight_time
. - (2 punti) Si crei una nuova variabile
Ritardo
in cui si calcola la differenza tra il tempo effettivo di volo (Actual_flight_time
) e quello atteso (Scheduled_flight_time
). Si calcoli il ritardo medio e si commenti il risultato. - (1 punti) Usando degli istrogrammi, si visualizzi la distribuzione dei ritardi.
- (2 punti) Usando dei comandi opportuni, si conti il numero di voli con ritardo maggiore di 5 minuti e quelli con anticipo superiore a 5 minuti.
- (2 punti) Si determini se la differenza delle medie del ritardo per le destinazioni Boston (BOS) e Los Angeles (LAX) è statisticamente significativa. Si commenti il risultato.
Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio.