Prova di esame 05/02/2018


Exercizio L1

Si carichi la libreria MASS e si consideri il dataset Pima.tr2.

  • Si crei un nuovo dataset contenente le variabili: npreg, glu, bmi e type. Tali variabili rappresentano il numero di gravidanze, la concentrazione di glucosio nel sangue misurata durante un test standard, l’indice di massa corporea e se il paziente è diabetico o no.
  • Si individuino eventuali valori mancanti e si sostituiscano con la mediana calcolata rispetto ai pazienti con lo stesso type.
  • Si calcolino quartili, media, mediana, min e max delle variabili numeriche.
  • Si creino dei boxplot della variabile glu al variare della variabile npreg, usando un solo comando. Si commenti e si interpreti il grafico risultante.
  • Si produca un modello di regressione lineare per la variabile glu (dipendente) rispetto alla variabile bmi (predittore). Si visualizzino i punti sperimentali e la retta di regressione lineare. Si commentino i risultati.

Si produca uno script funzionante (o un notebook) che contiene il codice per risolvere tutte le parti dell’esercizio. I plot devono riportare le opportune label lungo gli assi.