Esercitazione II

Simulazione prova intermedia

Esercizio 7

Si consideri il dataset al link (descrizione) e si importi. Il dataset contiene i dati relativi all’inquinamento da polveri sottili (PM 2.5) nella città di Pechino dal 2010 al 2014.

  • Si esplorino i dati e si individuino i dati mancanti.
  • Si sostituiscano i dati delle PM 2.5 mancanti usando i valori medi relativi alle stesse ore e alle stesse condizioni di neve o pioggia (non si considerino i valori, ma solo se piove o nevica).
  • Si visualizzino i dati e si confrontino con la soglia limite giornaliera di 50 ug/m3. Quante singole misurazione hanno superato di cinque volte tale soglia nel 2013?
  • Si crei un nuovo dataset contenente i dati aggregati per giorno. Tale dataset deve contenere i valori medi e massimi di PM 2.5 e temperatura media. Inoltre, si aggiunga una colonna che segnali se quel giorno ha nevicato-piovuto-nessuno dei due.
  • Si visualizzino i boxplot delle medie giornaliere di PM 2.5 rispetto alle condizioni meteo. Si visualizzi inoltre l’andamento dai valori massimi nei giorni di neve.
  • Ci sono giorni di pioggia in cui i valori medi hanno superato il limite giornaliero? Se sì, quanti?

Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio.

Esercizio 8

Si definisca una funzione che dati:

  • dei valori del predittore;
  • i corrispondenti valori della variabile dipendente;
  • i coefficienti di regressione;

restituisca il valore di R quadro, senza usare funzioni di libreria (eccezion fatta per sum() e mean()).

Si testi tale funzione sul dataset mtcars e si confronti il risultato con quello ottenuto con la funzione summary().

Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio.

Soluzioni