Si consideri il problema, piuttosto comune, di voler esprimere una variabile, ad esempio \(y\), in funzione di altre variabili, ad esempio \(x_1, \dots , x_n\), più delle perturbazioni aleatorie.

Regressione lineare

Prendiamo in considerazione il caso in cui tale funzione sia lineare. Parleremo di regressione lineare. Ciò significa che assumiamo che la variabile \(y\), detta dipendente, si possa esprimere come \[ y = \beta_0 + \beta_1 \cdot x + \omega \] dove \(\beta_0, \beta_1\) sono parametri da determinare e \(\omega\) è una perturbazione stocastica con distribuzione normale di media 0 e varianza \(\sigma^2\). I parametri \(\beta_0, \beta_1\) vengono solitamente determinati in base a diversi valori di \(x\) e \(y\).

Se abbiamo più osservazioni per la variabile \(y\), ottenute rispetto a diversi valori di \(x\), indicheremo con \(y_i\) e \(x_i\) tali valori.

Se l’assunzione che la dipendenza sia lineare è plausibile, ci aspettiamo che per le varie osservazioni valga: \[ y_i = \beta_0 + \beta_1 x_i + \omega_i, \quad i= 1, \dots , n \] con \(\omega_i\) indipendenti e tutti con distribuzione \(N(0,\sigma^2)\), con \(\sigma^2\) che non dipende da \(i\).

Stimare \(\beta_0\) e \(\beta_1\)

Il problema di stimare \(\beta_0, \beta_1\) viene risolto andando a trovare quei valori per i parametri che minimizzano la distanza tra i dati osservati (\(y_i\)) e i valori prodotti dal modello: \[ \hat{y_i} = \beta_0 + \beta_1 x_i \] La formulazione diviene quindi: \[ \min_{\beta_0, \beta_1 } S = S(\beta_0, \beta_1 ) = \sum_{i=1}^n \left( y_i - \beta_0 + \beta_1 x_i \right)^2 \]

Questo problema di minimizzazione quadratica ammette soluzione (unica) e si può ottenere andando ad imporre che il gradiente si annulli. Questo porta alla soluzione \((b_0, b_1)\) tale che: \[ b_0 = \bar{y} - b_1 \bar{x} \]

\[ b_1 = \frac{\sum_i (y_i - \bar{y}) x_i}{\sum_i x_i (x_i - \bar{x})} = \frac{\bar{\sigma} _{x y }} {\bar{\sigma_{x}^2}} \] con \[ \bar{x} = \frac{1}{n} \sum_i x_i \, \text{ e } \bar{y} = \frac{1}{n} \sum_i y_i \] I valori di \(b_0\) e \(b_1\) così ottenuti sono stimatori per i parametri \(\beta_0\) e \(\beta_1\). In particolare è possibile dimostrare che sono degli stimatori non distorti.

Inoltre c’è tutta una serie di risultati (che non dimostreremo) che permettono di provare, usando anche le ipotesi sugli \(\omega_i\), che: \[ b_0 \sim N\left( \beta_0, \sigma^2 (\frac{1}{n} + \frac{\bar{x}^2}{\bar{\sigma}_x^2}) \right), \, b_1 \sim N\left( \beta_1, \frac{\sigma^2}{\bar{\sigma}_x^2}) \right) \] Ovviamente è possibile associare degli intervalli di confidenza ai valori ottenuti, così come eseguire altri test statistici, ma noi non tratteremo questa parte.

Se indichiamo con \(r_i = y_i - \hat{y_i}\), i così detti residui, possiamo definire: \[ s^2 = \frac{1}{n-2} \sum_i r_i^2 \] che è uno stimatore non distorto di \(\sigma^2\), la varianza (sconosciuta) delle perturbazioni aleatorie. Inoltre vale che: \[ \frac{s^2}{\sigma^2}(n-2) \sim \chi^2(n-2) \] dove \(\chi^2\) indica la distribuzione Chi quadrato. Usando R con il comando lm() è possibile non solo definire un modello di regressione lineare, ma anche accedere a molte di queste informazioni.

Valutare il modello: \(R^2\)

Un utile valore per valutare la correttezza del modello, è il valore di \(R^2\), definito come: \[ R^2 = \frac{\sum_i (\hat{y_i} - \bar{y} )^2}{\sum_i (y_i - \bar{y})^2} = 1 -\frac{\sum_i (y_i - \hat{y_i})^2}{\sum_i (y_i - \bar{y})^2} \]

Questo valore, che assume valori tra 0 e 1, quantifica la proporzione di varianza dei dati che è spiegata dal modello. Più tale valore si avvicina a 1, migliore è il modello. Se invece tale valore è piccolo, o il modello è inadeguato (relazione non lineare o ipotesi non soddisfatte), o \(\sigma^2\) potrebbe avere un valore elevato.

Referenze bibliografiche

Il contenuto di questo capitolo si basa sull’omonimo capitolo del libro Calcolo delle probabilità e statistica di Paolo Baldi.

LS0tCnRpdGxlOiAiIFJlZ3Jlc3Npb25lIGxpbmVhcmUiCmF1dGhvcjogIkZlZGVyaWNvIFJlYWxpIgpkYXRlOiAyOS8wNS8yMDE5Cm91dHB1dDogCiAgaHRtbF9ub3RlYm9vazoKICAgIHRvYzogeWVzCiAgICB0b2NfZGVwdGg6IDIKICAgIHRvY19mbG9hdDoKICAgICAgY29sbGFwc2VkOiBubwogICAgICBzbW9vdGhfc2Nyb2xsOiB5ZXMKICAgIG51bWJlcl9zZWN0aW9uczogZmFsc2UKICAgIHRoZW1lOiB5ZXRpCiAgICBoaWdobGlnaHQ6IHRhbmdvCi0tLQoKU2kgY29uc2lkZXJpIGlsIHByb2JsZW1hLCBwaXV0dG9zdG8gY29tdW5lLCBkaSB2b2xlciBlc3ByaW1lcmUgIHVuYSB2YXJpYWJpbGUsIGFkIGVzZW1waW8gJHkkLCBpbiBmdW56aW9uZSBkaSBhbHRyZSB2YXJpYWJpbGksIGFkIGVzZW1waW8gJHhfMSwgXGRvdHMgLCB4X24kLCBwacO5IGRlbGxlIHBlcnR1cmJhemlvbmkgYWxlYXRvcmllLgoKIyBSZWdyZXNzaW9uZSBsaW5lYXJlCgpQcmVuZGlhbW8gaW4gY29uc2lkZXJhemlvbmUgaWwgY2FzbyBpbiBjdWkgdGFsZSBmdW56aW9uZSBzaWEgbGluZWFyZS4gUGFybGVyZW1vIGRpICpyZWdyZXNzaW9uZSBsaW5lYXJlKi4gQ2nDsiBzaWduaWZpY2EgY2hlIGFzc3VtaWFtbyBjaGUgbGEgdmFyaWFiaWxlICR5JCwgZGV0dGEgKmRpcGVuZGVudGUqLCBzaSBwb3NzYSBlc3ByaW1lcmUgY29tZSAKJCQKeSA9IFxiZXRhXzAgKyBcYmV0YV8xIFxjZG90IHggKyBcb21lZ2EKJCQKZG92ZSAkXGJldGFfMCwgXGJldGFfMSQgc29ubyBwYXJhbWV0cmkgZGEgZGV0ZXJtaW5hcmUgZSAgJFxvbWVnYSQgw6ggdW5hIHBlcnR1cmJhemlvbmUgc3RvY2FzdGljYSBjb24gZGlzdHJpYnV6aW9uZSBub3JtYWxlIGRpIG1lZGlhIDAgZSB2YXJpYW56YSAkXHNpZ21hXjIkLiBJIHBhcmFtZXRyaSAkXGJldGFfMCwgXGJldGFfMSQgdmVuZ29ubyBzb2xpdGFtZW50ZSBkZXRlcm1pbmF0aSBpbiBiYXNlIGEgZGl2ZXJzaSB2YWxvcmkgZGkgJHgkIGUgJHkkLgoKU2UgYWJiaWFtbyBwacO5IG9zc2VydmF6aW9uaSBwZXIgbGEgdmFyaWFiaWxlICR5JCwgb3R0ZW51dGUgcmlzcGV0dG8gYSBkaXZlcnNpIHZhbG9yaSBkaSAkeCQsIGluZGljaGVyZW1vIGNvbiAkeV9pJCBlICR4X2kkIHRhbGkgdmFsb3JpLgoKU2UgbCdhc3N1bnppb25lIGNoZSBsYSBkaXBlbmRlbnphIHNpYSBsaW5lYXJlIMOoIHBsYXVzaWJpbGUsIGNpIGFzcGV0dGlhbW8gY2hlIHBlciBsZSB2YXJpZSBvc3NlcnZhemlvbmkgdmFsZ2E6CiQkCnlfaSA9IFxiZXRhXzAgKyBcYmV0YV8xIHhfaSArIFxvbWVnYV9pLCBccXVhZCBpPSAxLCBcZG90cyAsIG4KJCQKY29uICRcb21lZ2FfaSQgaW5kaXBlbmRlbnRpIGUgdHV0dGkgY29uIGRpc3RyaWJ1emlvbmUgJE4oMCxcc2lnbWFeMikkLCBjb24gJFxzaWdtYV4yJCBjaGUgbm9uIGRpcGVuZGUgZGEgJGkkLgoKIyBTdGltYXJlICRcYmV0YV8wJCBlICRcYmV0YV8xJAoKSWwgcHJvYmxlbWEgZGkgc3RpbWFyZSAkXGJldGFfMCwgXGJldGFfMSQgdmllbmUgcmlzb2x0byBhbmRhbmRvIGEgdHJvdmFyZSBxdWVpIHZhbG9yaSBwZXIgaSBwYXJhbWV0cmkgY2hlIG1pbmltaXp6YW5vIGxhIGRpc3RhbnphIHRyYSBpIGRhdGkgb3NzZXJ2YXRpICgkeV9pJCkgZSBpIHZhbG9yaSBwcm9kb3R0aSBkYWwgbW9kZWxsbzoKJCQKXGhhdHt5X2l9ID0gXGJldGFfMCArIFxiZXRhXzEgeF9pCiQkCkxhIGZvcm11bGF6aW9uZSBkaXZpZW5lIHF1aW5kaTogCiQkClxtaW5fe1xiZXRhXzAsIFxiZXRhXzEgfSBTID0gUyhcYmV0YV8wLCBcYmV0YV8xICkgPSBcc3VtX3tpPTF9Xm4gXGxlZnQoIHlfaSAtIFxiZXRhXzAgKyBcYmV0YV8xIHhfaSBccmlnaHQpXjIKJCQKClF1ZXN0byBwcm9ibGVtYSBkaSBtaW5pbWl6emF6aW9uZSBxdWFkcmF0aWNhIGFtbWV0dGUgc29sdXppb25lICh1bmljYSkgZSBzaSBwdcOyIG90dGVuZXJlIGFuZGFuZG8gYWQgaW1wb3JyZSBjaGUgaWwgZ3JhZGllbnRlIHNpIGFubnVsbGkuIFF1ZXN0byBwb3J0YSBhbGxhIHNvbHV6aW9uZSAkKGJfMCwgYl8xKSQgdGFsZSBjaGU6CiQkCmJfMCAgPSBcYmFye3l9IC0gYl8xIFxiYXJ7eH0KJCQKCgokJApiXzEgPSBcZnJhY3tcc3VtX2kgKHlfaSAtIFxiYXJ7eX0pIHhfaX17XHN1bV9pIHhfaSAoeF9pIC0gXGJhcnt4fSl9ID0gXGZyYWN7XGJhcntcc2lnbWF9Cl97eCB5IH19IHtcYmFye1xzaWdtYV97eH1eMn19CiQkCmNvbgokJAogXGJhcnt4fSA9IFxmcmFjezF9e259IFxzdW1faSB4X2kgXCwgXHRleHR7IGUgfSBcYmFye3l9ID0gXGZyYWN7MX17bn0gXHN1bV9pIHlfaQokJApJIHZhbG9yaSBkaSAkYl8wJCBlICRiXzEkIGNvc8OsIG90dGVudXRpIHNvbm8gX3N0aW1hdG9yaV8gcGVyIGkgcGFyYW1ldHJpICRcYmV0YV8wJCBlICRcYmV0YV8xJC4gSW4gcGFydGljb2xhcmUgw6ggcG9zc2liaWxlIGRpbW9zdHJhcmUgY2hlIHNvbm8gZGVnbGkgc3RpbWF0b3JpICoqbm9uIGRpc3RvcnRpKiouCgpJbm9sdHJlIGMnw6ggdHV0dGEgdW5hIHNlcmllIGRpIHJpc3VsdGF0aSAoY2hlIG5vbiBkaW1vc3RyZXJlbW8pIGNoZSBwZXJtZXR0b25vIGRpIHByb3ZhcmUsIHVzYW5kbyBhbmNoZSBsZSBpcG90ZXNpIHN1Z2xpICRcb21lZ2FfaSQsIGNoZToKJCQKYl8wIFxzaW0gTlxsZWZ0KCBcYmV0YV8wLCBcc2lnbWFeMiAoXGZyYWN7MX17bn0gKyBcZnJhY3tcYmFye3h9XjJ9e1xiYXJ7XHNpZ21hfV94XjJ9KSBccmlnaHQpLCBcLCBiXzEgXHNpbSBOXGxlZnQoIFxiZXRhXzEsIFxmcmFje1xzaWdtYV4yfXtcYmFye1xzaWdtYX1feF4yfSkgXHJpZ2h0KQokJApPdnZpYW1lbnRlIMOoIHBvc3NpYmlsZSBhc3NvY2lhcmUgZGVnbGkgaW50ZXJ2YWxsaSBkaSBjb25maWRlbnphIGFpIHZhbG9yaSBvdHRlbnV0aSwgY29zw6wgY29tZSBlc2VndWlyZSBhbHRyaSB0ZXN0IHN0YXRpc3RpY2ksIG1hIG5vaSBub24gdHJhdHRlcmVtbyBxdWVzdGEgcGFydGUuCgpTZSBpbmRpY2hpYW1vIGNvbiAkcl9pID0geV9pIC0gXGhhdHt5X2l9JCwgaSBjb3PDrCBkZXR0aSAqKnJlc2lkdWkqKiwgcG9zc2lhbW8gZGVmaW5pcmU6CiQkCnNeMiA9IFxmcmFjezF9e24tMn0gXHN1bV9pIHJfaV4yIAokJApjaGUgw6ggdW5vIHN0aW1hdG9yZSBub24gZGlzdG9ydG8gZGkgJFxzaWdtYV4yJCwgbGEgdmFyaWFuemEgKHNjb25vc2NpdXRhKSBkZWxsZSBwZXJ0dXJiYXppb25pIGFsZWF0b3JpZS4gSW5vbHRyZSB2YWxlIGNoZToKJCQKXGZyYWN7c14yfXtcc2lnbWFeMn0obi0yKSBcc2ltIFxjaGleMihuLTIpCiQkCmRvdmUgJFxjaGleMiQgaW5kaWNhIGxhIGRpc3RyaWJ1emlvbmUgW0NoaSBxdWFkcmF0b10oaHR0cHM6Ly9pdC53aWtpcGVkaWEub3JnL3dpa2kvRGlzdHJpYnV6aW9uZV9jaGlfcXVhZHJhdG8pLgpVc2FuZG8gUiBjb24gaWwgY29tYW5kbyBgbG0oKWAgw6ggcG9zc2liaWxlIG5vbiBzb2xvIGRlZmluaXJlIHVuIG1vZGVsbG8gZGkgcmVncmVzc2lvbmUgbGluZWFyZSwgbWEgYW5jaGUgYWNjZWRlcmUgYSBtb2x0ZSBkaSBxdWVzdGUgaW5mb3JtYXppb25pLgoKIyBWYWx1dGFyZSBpbCBtb2RlbGxvOiAkUl4yJAoKVW4gdXRpbGUgdmFsb3JlIHBlciB2YWx1dGFyZSBsYSBjb3JyZXR0ZXp6YSBkZWwgbW9kZWxsbywgw6ggaWwgdmFsb3JlIGRpICRSXjIkLCBkZWZpbml0byBjb21lOgokJApSXjIgPSBcZnJhY3tcc3VtX2kgKFxoYXR7eV9pfSAtIFxiYXJ7eX0gKV4yfXtcc3VtX2kgKHlfaSAtIFxiYXJ7eX0pXjJ9ID0gMSAtXGZyYWN7XHN1bV9pICh5X2kgLSBcaGF0e3lfaX0pXjJ9e1xzdW1faSAoeV9pIC0gXGJhcnt5fSleMn0gCiQkCgpRdWVzdG8gdmFsb3JlLCBjaGUgYXNzdW1lIHZhbG9yaSB0cmEgMCBlIDEsIHF1YW50aWZpY2EgbGEgcHJvcG9yemlvbmUgZGkgdmFyaWFuemEgZGVpIGRhdGkgY2hlIMOoIHNwaWVnYXRhIGRhbCBtb2RlbGxvLiBQacO5IHRhbGUgdmFsb3JlIHNpIGF2dmljaW5hIGEgMSwgbWlnbGlvcmUgw6ggaWwgbW9kZWxsby4gU2UgaW52ZWNlIHRhbGUgdmFsb3JlIMOoIHBpY2NvbG8sIG8gaWwgbW9kZWxsbyDDqCBpbmFkZWd1YXRvIChyZWxhemlvbmUgbm9uIGxpbmVhcmUgbyBpcG90ZXNpIG5vbiBzb2RkaXNmYXR0ZSksIG8gJFxzaWdtYV4yJCBwb3RyZWJiZSBhdmVyZSB1biB2YWxvcmUgZWxldmF0by4KCi0tLS0tLS0tLS0tLS0tLS0tLS0KCiMgUmVmZXJlbnplIGJpYmxpb2dyYWZpY2hlCklsIGNvbnRlbnV0byBkaSBxdWVzdG8gY2FwaXRvbG8gc2kgYmFzYSBzdWxsJ29tb25pbW8gY2FwaXRvbG8gZGVsIGxpYnJvIFsgQ2FsY29sbyBkZWxsZSBwcm9iYWJpbGl0w6AgZSBzdGF0aXN0aWNhXShodHRwOi8vd3d3LmNhdGFsb2dvLm1jZ3Jhdy1oaWxsLml0L2NhdExpYnJvLmFzcD9pdGVtX2lkPTI1NTcpIGRpIFBhb2xvIEJhbGRpLg==

Regressione lineare

Federico Reali

29/05/2019

Regressione lineare

Stimare \(\beta_0\) e \(\beta_1\)

Valutare il modello: \(R^2\)

Referenze bibliografiche