Prova di esame 13/07/2017


Exercizio L1

Si importi il dataset al link (descrizione), che contiene i dati relativi alla metropolitana di New York durante il mese di maggio 2011.

  • Dal dataset scaricato, si selezionino i dati relativi alla stazione corrispondente al proprio numero di matricola, come indicato nella tabella. Le rimanenti analisi si intendono su tale dataset.
  • Si esplori la struttura dei dati e si individuino i dati mancanti/errati. Si sostituiscano tali valori con le media tra il valore precedente e quello successivo al dato mancante/errato.
  • Per le variabili ENTRIESn_hourly e EXITSn_hourly si calcolino i decili, la media e la mediana.
  • Si visualizzi, usando i boxplot, l’andamento delle variabili ENTRIESn_hourly e EXITSn_hourly al variare dei giorni della settimana. Si commentino i risultati.
  • Si determini il giorno della settiana in cui ha piovuto più volte.
  • Per tale giorno, si confrontino, usando degli istogrammi, i dati relativi alle entrate orarie tra quando piove e quando non piove. Si impostino gli stessi intervalli per le barre dei due istogrammi e si commentino i risultati.

  • Si definisca una funzione che prende in input un vettore x e restituisce gli intervalli di confidenza per la media. Si supponga che x sia un campione preso da una popolazione normale e di varianza ignota. La funzione non deve far uso di funzioni di libreria.

Si produca uno script funzionante (o un notebook) che contiene il codice per risolvere tutte le parti dell’esercizio. I plot devono riportare le opportune label lungo gli assi.