Seconda Prova Intermedia


Esercizio L1

Si importi il dataset al link (descrizione). Il dataset contiene i dati relativi alle misurazioni del livelli di ozono (parti per milione) in alcune città americane nel 2015.

  • Si selezionino i dati relativi alla città corrispondente al proprio numero di matricola (tabella).
  • Si esplori la struttura dei dati e si individuino i dati mancanti o errati per le colonne Arithmetic.Mean e X1st.Max.Value che contengono rispettivamente il valore medio ed il valore massimo giornaliero registrato per l’ozono.
  • Si sostituiscano i valori mancanti/errati con i valori medi relativi agli stessi giorni della settimana.
  • Per le variabili di interesse si calcolino: min, max, quartili, media e deviazione standard.
  • Si produca un istogramma per la variabile Arithmetic.Mean e vi si sovrapponga una retta rossa, corrispondente al valore medio, ed una verde, corrispondente alla mediana.
  • Si visualizzino i boxplot dei valori massimi giornalieri divisi per giorno della settimana. Inoltre si indichino giorno e ora in cui è stato raggiunto il valore massimo.

Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio. I plot devono riportare le opportune label lungo gli assi.


Esercizio L2

Si considere il dataset bodyfat, disponibile al link (descrizione).

  • Si considerino le variabili weight (in libre) e biceps (in cm). Dopo aver traformato la varaibile weight in Kg, si visualizzino i boxplot per entrambe le variabili. Si analizzino i potenziali outliers e si rimuovano eventuali misurazioni che sono outliers rispetto ad entrambi le variabili.
  • Per il dataset così modificato, si producano gli istogrammi per le due variabili.
  • Si produca un modello di regressione lineare per la variabile biceps (dipendente) rispetto variabile weight (predittore) e si commentino i risultati. Si produca un grafico riportante la retta di regressione lineare ed i punti.
  • Si produca un grafico che mostra i residui e si commenti rispetto alle ipotesi richieste per un modello di regressione.

Si definisca una funzione che dati due vettori x e y, restituisca la loro covarianza.

La funzione non deve far uso di funzioni di libreria (eccezion fatta per sum() e length()).

Si testi tale funzione sul dataset bodyfat e si confronti il risultato con la funzione di libreria di R.

Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio. I plot devono riportare le opportune label lungo gli assi.