Chapter 7 Esercitazione 1
Si scarichi il dataset al link e si eseguano le operazioni:
- Si importi il dataset.
- Si crei un nuovo dataset contenente solo le righe corrispondenti alla variabile Idataset uguale all’ultimo numero del proprio numero di matricola. Dopo aver fatto ciò, si rimuova la variabile. Le seguenti analisi si intendono su questo dataset.
- Si analizzi la struttura del dataset, si verifichi il numero di righe e colonne contenute. Il dataset è stato letto bene? E’ tidy?
- Si verifichi la presenza di eventuali errori nei dati e si sostituiscano con la mediana.
- Si calcolino media, mediana, minimo, massimo e quartili e deviazione standard.
- Si visualizzi la distribuzione delle variabili x e y e i loro box plot.
- Si visualizzino i dati mediante uno scatterplot.
Il dataset completo e una discussione riguardo i dati usati per l’esercizio sono disponibili qui.
7.1 Esercizi
7.1.1 Esercizio 1
Si importi il dataset (descrizione) e si analizzi la relazione tra le due variabili usando la regressione lineare. Si analizzino i risultati e si visualizzino i residui.
7.1.2 Esercizio 2
Si trovi un modo adeguato per importare i dati relativi al reddito nazionale lordo pro capite e alla percentuale di strade asfaltate in R. Dopo aver analizzato e preparato i dataset, si usino i dati per investigare le due variabili rispetto ad un paese del G7, un paese in via di sviluppo ed un paese del terzo mondo a scelta, nel periodo dal 1990 al 2009. Si analizzino i dati e si visualizzino. Inoltre si usi la regressione lineare per analizzare la relazione tra le variabili. Si commentino e discutano i risultati.
7.1.3 Esercizio 3
Usando il dataset ottenuto nell’Esercizio 3 del capitolo 5, si investighi usando la regressione lineare la relazione tra prodotto interno lordo e aspettativa di vita per ognuno dei continenti. Si usi la funzione predict()
per valutare il modello su dati diversi da quelli usati per definirlo. In particolare, si valuti il modello ottenuto per l’America sui dati europei e viceversa. Si visualizzino e si discutano i risultati ottenuti, dandone anche un interpretazione.
7.1.4 Esercizio 4
Si considerino i modelli ottenuto nell’Esercizio 3. Si valuti separatamente il modello ottenuto per l’America e quello l’Europa usando i dati dei paesi Canada, Italy, Argentina e Sierra Leone contentuti nel dataset originale. Si valutino i valori di R quadro ottenuti e si discutano i risultati.
Suggerimento si usi la formulazione equivalente di R quadro: