Esercizio 1
Si consideri il dataset (descrizione) che riporta i dati orari relativi al volume di traffico sull’interstatale I-94.
- (2 punti) Si importi il dataset in R e si verifichi la correttezza de contenuto. Si sostituiscano eventuali errori con la mediana della stessa variabile.
- (2 punti) Si crei una nuova variabile
TempC
in cui si trasforma la variabileTemp
da gradi Kelvin a Celsius. Si crei una nuova variabilerain_YN
uguale a 0 serain_1h
è 0, e 1 altrimenti. Si trasformi la variabiledate_time
nel tipo data e ora (con time zone GMT-5). - (3 punti) Per le misure con e senza pioggia, si calcolino il minimo, massimo, media e mediana per la temperatura (in Celsius) e per il volume di traffico. Inoltre si visualizzino gli stessi dati (al variare della pioggia) usando i boxplot.
- (1 punto) Si determini se la differenza delle medie del volume di traffico nei giorni con/senza pioggia è statisticamente significativa. Si commenti il risultato e si discuta cosa dicono le analisi fatte finora rispetto al pensiero comune che risulta esserci più traffico quando piove.
- (2 punti) Si definisca un nuovo dataset contenente il massimo del volume di traffico aggregato per la stessa data. Su questo nuovo dataset si definisca una nuova variabile contenente il giorno della settimana relativo alla data. Si visualizzi la distribuzione del massimo del traffico giornaliero con un istogramma e si visualizzi con dei boxplot la distribuzione nei vari giorni della settimana. Visivamente, quale è il giorno con mediana di traffico più alta?
Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio.