Simulazione prova intermedia
Esercizio 7
Si consideri il dataset al link (descrizione) e si importi. Il dataset contiene i dati relativi all’inquinamento da polveri sottili (PM 2.5) nella città di Pechino dal 2010 al 2014.
- Si esplorino i dati e si individuino i dati mancanti.
- Si sostituiscano i dati delle PM 2.5 mancanti usando i valori medi relativi alle stesse ore e alle stesse condizioni di neve o pioggia (non si considerino i valori, ma solo se piove o nevica).
- Si visualizzino i dati e si confrontino con la soglia limite giornaliera di 50 ug/m3. Quante singole misurazione hanno superato di cinque volte tale soglia nel 2013?
- Si crei un nuovo dataset contenente i dati aggregati per giorno. Tale dataset deve contenere i valori medi e massimi di PM 2.5 e temperatura media. Inoltre, si aggiunga una colonna che segnali se quel giorno ha nevicato-piovuto-nessuno dei due.
- Si visualizzino i boxplot delle medie giornaliere di PM 2.5 rispetto alle condizioni meteo. Si visualizzi inoltre l’andamento dai valori massimi nei giorni di neve.
- Ci sono giorni di pioggia in cui i valori medi hanno superato il limite giornaliero? Se sì, quanti?
Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio.
Esercizio 8
Si definisca una funzione che dati:
- dei valori del predittore;
- i corrispondenti valori della variabile dipendente;
- i coefficienti di regressione;
restituisca il valore di R quadro, senza usare funzioni di libreria (eccezion fatta per sum()
e mean()
).
Si testi tale funzione sul dataset mtcars e si confronti il risultato con quello ottenuto con la funzione summary()
.
Si produca uno script funzionante (o un notebook) che contiene tutto il codice per risolvere l’esercizio.