Prova di esame 13/06/2017


Esercizio L1

Si importi il dataset countX.csv_, dove X è il resto della divisione del proprio numero di matricola per 2 (count0 - count1) . Si scarichi anche il seguente dataset. I dataset contengono rispettivamente le informazioni relative al noleggio di bici (bike sharing) e alle condizione meteo nella città di Washington nel 2011 e 2012 (descrizione delle variabili).

  • Si uniscano i dataset contenenti le informazioni relativi al noleggio di biciclette (CountX) e alle informazioni atmosferiche (Weather).
  • Si esplori la struttura dei dati e si individuino i dati mancanti o errati.
  • Si sostituiscano i valori mancanti/errati con le mediana dei valori relativi allo stesso mese dello stesso anno.
  • Per la variabile cnt si calcolino: quartili, IQR, Range, media e deviazione standard.
  • Si visualizzino in un istogramma i valori della variabile cnt durante i mesi estivi.

  • Si definisca un nuovo dataset contenente solo i valori delle variabili tra Aprile e Maggio del 2011. Usando i boxplot, si rimuovano eventuali outliers per la variabile cnt.

  • Usando i dati del punto precedente, si produca un modello di regressione lineare per la variabile cnt (dipendente) rispetto alla variabile temp (predittore) se il proprio numero di matricola è pari o rispetto alla variabile dteday se dispari. Si commentino i risultati e si produca un grafico riportante la retta di regressione lineare ed i punti sperimentali.

  • Si produca un grafico che mostra i residui e la distribuzione dei loro quantili. Si commentino tali grafici in funzione delle ipotesi richieste per un modello di regressione. Tenuto conto di tutti i risultati e osservazioni precedenti, si dia un giudizio sul modello.

Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio. I plot devono riportare le opportune label lungo gli assi.