Manipolare dati
Originally posted here.
In questa lezione lavorerete molto più voi di me, e per questo ci saranno meno note. Nonostante questo, inizieremo vedendo alcuni comandi e funzioni che risultano utili. Ricordiamoci di inizializzare la cartella relativa a questa lezione con le ormai note cartelle.
Manipolare dati (continua)
Abbiamo ampiamente visto come lavorare e manipolare i dati. Tuttavia un importante funzione che permette di raggruppare i dati non è stata spiegata in classe: si tratta di aggregate()
. Tale comando, permette di applicare una funzione ad un sottoinsieme dei dati, seguendo uno schema preciso. Vediamo alcuni esempi.
Altro utile comando è merge()
che permette di unire dataframe indicando il campo da usare per confrontare le entrate. In modo più semplice, e dopo essersi assicurati che le osservazioni siano “allineate”, è possibile usare anche i comandi rbin()
e cbind()
che sono già stati trattati.
Distribuzioni di probabilità
R ci permette di accedere a molte distribuzioni di probabilità attraverso delle apposite funzioni che sono contenuto nel pacchetto stast, che va quindi caricato.
Le distribuzioni sono accessibili attraverso delle funzioni che richiamano il nome della distribuzione, ad esempio con norm, binom e gamma, solo per citarne alcune, si accede alla distribuzione normale, binomiale e gamma. A tale nome si aggiunge un prefisso, che serve a specificare se si è interessati alla funzione densità (d), alla distribuzione (p), alla funzione che riporta i quantili (q) o se si vogliono generare dei numeri usando tale distribuzione (r).
Cercando distribution nell’help è possibile accedere all’elenco di tutte le distribuzioni di R. Il fatto che R permetta di accedere facilmente alle distribuzioni tornerà particolarmente utile quando lavoreremo con gli intervalli di confidenza, e potremmo interrogare R, piuttosto che lavorare con la versione tabulare delle stesse.
Va segnalata, almeno per la distribuzione normale, che esiste la funzione qqnorm
che permette di confrontare graficamente i quantili dei propri dati con quelli della distribuzione normale. Questo è un modo per verificare graficamente (e quindi non formalmente) se i propri dati seguono una distribuzione normale. Insieme alla richiesta che le misurazioni siano indipendenti, queste due sono delle ipotesi che abbiamo visto molto spesso, specialmente nell’uso di teoremi limite.
Esercitazione
Si leggano i dati regionali della protezione civile relativi a COVID-19 Leggi dati covid al link.
Si selezionino i dati relativi alla propria regione/provincia autonoma di origine e si salvino in un nuovo dataset. Le analisi seguenti si intendono su queso dataset.
Si confronti il numero medio di nuovi positivi nei mesi di Marzo e Aprile, così come le due deviazioni standard.
Si visualizzi l’andamento nel tempo dei nuovi positivi (durante tutto il periodo) aggiungendo delle opportune label lungo gli assi.
Si definisca la colonna
nuovi_guariti
, con il conto giornaliero dei guariti.Con un solo plot, si confrontino i nuovi positivi ed i nuovi guariti. Si ripeta il grafico usando linee invece che punti.
Si affianchino le distribuzioni dei nuovi positivi e dei nuovi guariti.
Facciamo un po’ di pratica!
Esercizio 1
Si trovi un modo adeguato per importare i dati relativi al reddito nazionale lordo pro capite e alla percentuale di strade asfaltate in R. Dopo aver analizzato e preparato i dataset, si usino i dati per investigare le due variabili rispetto ad un paese del G7, un paese in via di sviluppo ed un paese del terzo mondo a scelta, nel periodo dal 1990 al 2009. Si analizzino i dati e si visualizzino.
Esercizio 2
Si svolga il primo capitolo del corso online di DataCamp che riguarda i modelli di rischio nel credito. Il primo capitolo del corso (in inglese) è gratuito.
Esercizio 3
Si importi il dataset contenente i dati relativi alla aspettativa di vita, popolazione e prodotto interno lordo pro capite di 142 paesi del mondo. Si aggreghino i dati per continenti e si visualizzi l’andamento dell’aspettativa di vita rispetto alle variabili tempo, reddito pro capite e popolazione. Si investighi una possibile trasformazione dei dati per rendere più informativa l’analisi e si ripetano le analisi sui dati trasformati.
Esercizio 4
Si consideri il dataset che riporta 14 parametri di 303 pazienti con problemi di cuore. Si importi il dataset e si visualizzino con degli istogrammi le distribuzioni delle variabili. Inoltre usando la funzione aggregate
, si determini al variare dell’età, il valore medio e massimo delle variabili chol
(colesterolo) e thalach
(frequenza cardiaca massima).
Esercizio 5
Dopo aver svolto l’Esercizio 4, si consulti il notebook R al link. Quali sono gli obbiettivi dell’autore? Quale tecniche utilizza? Quale di queste non sono ancora state trattate nel nostro corso?
© 2017-2019 Federico Reali