Esercizio L1
Si importi il dataset al link (descrizione). Il dataset contiene i dati relativi alle misurazioni del livelli di ozono (parti per milione) in alcune città americane nel 2015.
- Si selezionino i dati relativi alla città corrispondente al proprio numero di matricola (tabella).
- Si esplori la struttura dei dati e si individuino i dati mancanti o errati per le colonne Arithmetic.Mean e X1st.Max.Value che contengono rispettivamente il valore medio ed il valore massimo giornaliero registrato per l’ozono.
- Si sostituiscano i valori mancanti/errati con i valori medi relativi agli stessi giorni della settimana.
- Per le variabili di interesse si calcolino: min, max, quartili, media e deviazione standard.
- Si produca un istogramma per la variabile Arithmetic.Mean e vi si sovrapponga una retta rossa, corrispondente al valore medio, ed una verde, corrispondente alla mediana.
- Si visualizzino i boxplot dei valori massimi giornalieri divisi per giorno della settimana. Inoltre si indichino giorno e ora in cui è stato raggiunto il valore massimo.
Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio. I plot devono riportare le opportune label lungo gli assi.
Esercizio L2
Si considere il dataset bodyfat, disponibile al link (descrizione).
- Si considerino le variabili weight (in libre) e biceps (in cm). Dopo aver traformato la varaibile weight in Kg, si visualizzino i boxplot per entrambe le variabili. Si analizzino i potenziali outliers e si rimuovano eventuali misurazioni che sono outliers rispetto ad entrambi le variabili.
- Per il dataset così modificato, si producano gli istogrammi per le due variabili.
- Si produca un modello di regressione lineare per la variabile biceps (dipendente) rispetto variabile weight (predittore) e si commentino i risultati. Si produca un grafico riportante la retta di regressione lineare ed i punti.
- Si produca un grafico che mostra i residui e si commenti rispetto alle ipotesi richieste per un modello di regressione.
Si definisca una funzione che dati due vettori x e y, restituisca la loro covarianza.
La funzione non deve far uso di funzioni di libreria (eccezion fatta per sum()
e length()
).
Si testi tale funzione sul dataset bodyfat e si confronti il risultato con la funzione di libreria di R.
Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio. I plot devono riportare le opportune label lungo gli assi.