Esame Febbraio 2020

Esercizio 1

Si consideri il dataset che riporta i dati realtivi ai voli partiti dall’aeroporto di Atlanta nell’Ottobre 2004. Tra le diverse variabili, quelle di interesse sono Actual_flight_timee Scheduled_flight_time che riportano i tempi di volo effettivi e previsti e Destanation_city che riporta la città di destinazione.

  • (2 punti) Si importi il dataset in R e si verifichi la correttezza de contenuto. I voli con Actual_flight_time nullo sono quelli cancellati: si rimuovano dal dataset.
  • (1 punti) Si calcolino media, quartili e deviazione standard delle variabili Actual_flight_time e Scheduled_flight_time.
  • (2 punti) Si crei una nuova variabile Ritardo in cui si calcola la differenza tra il tempo effettivo di volo (Actual_flight_time) e quello atteso (Scheduled_flight_time). Si calcoli il ritardo medio e si commenti il risultato.
  • (1 punti) Usando degli istrogrammi, si visualizzi la distribuzione dei ritardi.
  • (2 punti) Usando dei comandi opportuni, si conti il numero di voli con ritardo maggiore di 5 minuti e quelli con anticipo superiore a 5 minuti.
  • (2 punti) Si determini se la differenza delle medie del ritardo per le destinazioni Boston (BOS) e Los Angeles (LAX) è statisticamente significativa. Si commenti il risultato.

Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio.