Esercizio L1
Si importi il dataset countX.csv_, dove X è il resto della divisione del proprio numero di matricola per 2 (count0 - count1) . Si scarichi anche il seguente dataset. I dataset contengono rispettivamente le informazioni relative al noleggio di bici (bike sharing) e alle condizione meteo nella città di Washington nel 2011 e 2012 (descrizione delle variabili).
- Si uniscano i dataset contenenti le informazioni relativi al noleggio di biciclette (CountX) e alle informazioni atmosferiche (Weather).
- Si esplori la struttura dei dati e si individuino i dati mancanti o errati.
- Si sostituiscano i valori mancanti/errati con le mediana dei valori relativi allo stesso mese dello stesso anno.
- Per la variabile
cnt
si calcolino: quartili, IQR, Range, media e deviazione standard. Si visualizzino in un istogramma i valori della variabile
cnt
durante i mesi estivi.Si definisca un nuovo dataset contenente solo i valori delle variabili tra Aprile e Maggio del 2011. Usando i boxplot, si rimuovano eventuali outliers per la variabile cnt.
Usando i dati del punto precedente, si produca un modello di regressione lineare per la variabile cnt (dipendente) rispetto alla variabile temp (predittore) se il proprio numero di matricola è pari o rispetto alla variabile dteday se dispari. Si commentino i risultati e si produca un grafico riportante la retta di regressione lineare ed i punti sperimentali.
Si produca un grafico che mostra i residui e la distribuzione dei loro quantili. Si commentino tali grafici in funzione delle ipotesi richieste per un modello di regressione. Tenuto conto di tutti i risultati e osservazioni precedenti, si dia un giudizio sul modello.
Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio. I plot devono riportare le opportune label lungo gli assi.