Varianza

In statistica e in teoria della probabilità la varianza di una variabile statistica o di una variabile aleatoria $X$ è una funzione, indicata con $\sigma _{X}^{2}$ o con $\mathrm {Var} (X)$ (o semplicemente con $\sigma ^{2}$ se la variabile è sottintesa), che fornisce una misura della variabilità dei valori assunti dalla variabile stessa; nello specifico, la misura di quanto essi si discostino quadraticamente rispettivamente dalla media aritmetica o dal valore atteso $\mathbb {E} [X]$ .

Il termine di "varianza" venne introdotto nel 1918 da Ronald Fisher e sostituì nel tempo la denominazione di "deviazione standard quadratica" utilizzata da Karl Pearson.

Probabilità

Definizione

La varianza della variabile aleatoria $X$ è definita come il valore atteso del quadrato della variabile aleatoria centrata $X-\mathbb {E} [X]$

\sigma _{X}^{2}=\mathbb {E} {\Big [}{\big (}X-\mathbb {E} [X]{\big )}^{2}{\Big ]}.

Un esempio di "misura" dello scostamento di una variabile aleatoria dalla media è dato dalla disuguaglianza di Čebyšëv che controlla questo scostamento in termini dello scarto tipo:

P{\Big (}{\big |}X-\mathbb {E} [X]{\big |}\geqslant \lambda \sigma _{X}{\Big )}\leqslant {\frac {1}{\lambda ^{2}}},

dove $\sigma _{X}={\sqrt {\sigma _{X}^{2}}}$

Proprietà

Segno della varianza

La varianza di una variabile aleatoria non è mai negativa, ed è zero solamente quando la variabile assume quasi certamente un solo valore $x_{0}$ , cioè se $P(X=x_{0})=1$ .

Massimo e minimo della varianza fissati i valori estremi della distribuzione

Dato un insieme di $n$ unità statistiche, dove $\mathrm {min}$ e $\mathrm {max}$ sono i valori minimo e massimo tra le unità, il massimo valore che può assumere la varianza è uguale a

\sigma _{\mathrm {max} }^{2}={\frac {(\mathrm {max} -\mathrm {min} )^{2}}{4}}.

Se dalle osservazioni si conosce soltanto la media $\mu$ , il valore è uguale a

\sigma _{\mathrm {max} }^{2}=\mu ^{2}(n-1).

Espressione della varianza come differenza tra il momento di ordine 2 e il quadrato del valore atteso

Una formula alternativa per la varianza è

\sigma _{X}^{2}=\mathbb {E} [X^{2}]-\mathbb {E} [X]^{2}\

Questa formula è più pratica per calcolare la varianza.

Invarianza per traslazione

La varianza è invariante per traslazione, che lascia fisse le distanze dalla media, e cambia quadraticamente per riscalamento:

\sigma _{aX+b}^{2}=a^{2}\sigma _{X}^{2}\

Varianza della somma di due variabili indipendenti

La varianza della somma di due variabili indipendenti o anche solo incorrelate è pari alla somma delle loro varianze

\sigma _{X+Y}^{2}=\sigma _{X}^{2}+\sigma _{Y}^{2}.

Varianza della differenza di due variabili indipendenti

Usando le due precedenti affermazioni, possiamo dire che la varianza della differenza di due variabili indipendenti è pari alla somma delle loro varianze

\sigma _{X-Y}^{2}=\sigma _{X+(-Y)}^{2}=\sigma _{X}^{2}+\sigma _{-Y}^{2}=\sigma _{X}^{2}+\sigma _{Y}^{2}.

Varianza della somma di due variabili non indipendenti

Se $X$ e $Y$ non sono indipendenti, la formula viene corretta dalla loro covarianza,

\sigma _{X+Y}^{2}=\sigma _{X}^{2}+\sigma _{Y}^{2}+2\sigma _{X,Y},

dove

\sigma _{X,Y}=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].

Varianza della media aritmetica di variabili indipendenti

In particolare, la media aritmetica $\textstyle {\bar {X}}={\frac {X_{1}+\ldots +X_{n}}{n}}$ di $n$ variabili aleatorie indipendenti aventi la medesima distribuzione, ha varianza aritmetica

\sigma _{\bar {X}}^{2}={\frac {1}{n^{2}}}\sigma _{X_{1}+\ldots +X_{n}}^{2}={\frac {1}{n}}\sigma _{X_{1}}^{2}.

Variabili aleatorie discrete e continue

La varianza di una variabile aleatoria discreta $X$ a valori in un insieme $A$ si calcola attraverso la sua funzione di probabilità:

\mathbb {E} [X]=\sum _{x\in A}xP(X=x)

\sigma _{X}^{2}=\sum _{x\in A}(x-\mathbb {E} [X])^{2}P(X=x).

La varianza di una variabile aleatoria continua $X$ a valori in un insieme $A$ si calcola attraverso la sua densità di probabilità:

\mathbb {E} [X]=\int _{A}xf(x)dx

\sigma _{X}^{2}=\int _{A}(x-\mathbb {E} [X])^{2}f(x)dx.

Esempio

Una variabile aleatoria di Bernoulli $X$ , cioè che ha probabilità $p$ di fornire "1" e probabilità $q=1-p$ di fornire "0", ha valore atteso

\mathbb {E} [X]=0\cdot P(X=0)+1\cdot P(X=1)=P(X=1)=p,

e la sua varianza può essere calcolata come

\sigma _{X}^{2}=\mathbb {E} [(X-\mathbb {E} [X])^{2}]=\mathbb {E} [(X-p)^{2}]=p^{2}P(X=0)+q^{2}P(X=1)=pq(p+q)=pq,

oppure come

\sigma _{X}^{2}=\mathbb {E} [X^{2}]-\mathbb {E} [X]^{2}=P(X=1)-p^{2}=p(1-p)=pq.

Statistica

In statistica la varianza è un indice di variabilità. Data una distribuzione di un carattere quantitativo $X$ su una popolazione di $n$ elementi, la varianza è la media aritmetica del quadrato delle distanze dei valori dalla loro media

\sigma _{X}^{2}={\frac {\sum _{i}(x_{i}-\mu _{X})^{2}}{n}},

dove $\textstyle \mu _{X}={\frac {\sum _{i}x_{i}}{n}}$ è la media aritmetica di $X$ .

Nel caso si disponga della distribuzione di frequenze di un carattere, è possibile calcolare più facilmente la varianza attraverso la seguente formula:

\sigma _{X}^{2}={\frac {1}{n}}\sum _{j=1}^{K}(x_{j}-\mu _{X})^{2}n_{j}

dove $K$ rappresenta il numero di modalità in cui si presenta il carattere x, mentre $x_{j}$ e $n_{j}$ sono rispettivamente la j-esima modalità di x e la relativa frequenza assoluta.

A partire dalla precedente formula, ricordando che $n_{j}/n=f_{j}$ , si ricava anche:

\sigma _{X}^{2}=\sum _{j=1}^{K}(x_{j}-\mu _{X})^{2}f_{j}

dove $f_{j}$ è la frequenza relativa della j-esima modalità.

Esiste, infine, una formula semplificata per il calcolo della varianza:

\sigma _{X}^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}\right)-\mu _{X}^{2}

Le formule corrispondenti alla precedente che fanno uso della frequenza assoluta e di quella relativa sono:

\sigma _{X}^{2}={\frac {1}{n}}\sum _{j=1}^{K}x_{j}^{2}n_{j}-\mu _{X}^{2}

\sigma _{X}^{2}=\sum _{j=1}^{K}x_{j}^{2}f_{j}-\mu _{X}^{2}

Un difetto della varianza è quello di non avere la stessa unità di misura dei valori analizzati (se, per esempio, questi sono in cm, la varianza sarà in cm²), perciò in statistica viene molto spesso utilizzata anche la radice quadrata della varianza, vale a dire lo scarto quadratico medio (o deviazione standard o scarto tipo) $\sigma _{X}={\sqrt {\sigma _{X}^{2}}}$ . Con riferimento a questa notazione la varianza si trova quindi anche indicata come $\sigma ^{2}$ .

Stimatori

In statistica si utilizzano solitamente due stimatori per la varianza su un campione di cardinalità $n$ :

S_{n}^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{n}}\quad

e

\quad S_{n-1}^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{n-1}},

dove $\textstyle {\bar {x}}={\frac {x_{1}+\ldots +x_{n}}{n}}$ è la media campionaria. Il primo è detto varianza campionaria, mentre il secondo è detto varianza campionaria corretta a causa della sua proprietà di correttezza. Infatti lo stimatore $S_{n-1}^{2}$ è privo di distorsione, cioè il suo valore atteso è proprio la varianza:

\mathbb {E} [S_{n-1}^{2}]=\sigma ^{2}(X)

.

Al contrario, lo stimatore $S_{n}^{2}$ ha un valore atteso diverso dalla varianza, $\mathbb {E} [S_{n}^{2}]=\textstyle {\frac {n-1}{n}}\sigma ^{2}(X)$ .

Una spiegazione del termine $n-1$ è data dalla necessità di stimare anche la media che per il teorema del limite centrale ha varianza 1/n. Se la media è nota, lo stimatore $S_{n}^{2}$ diventa corretto. Questa è detta "correzione di Bessel".

Se le $X_{i}$ sono variabili aleatorie normali $N(\mu ,\sigma )$ , lo stimatore $S_{n-1}^{2}$ è una variabile aleatoria con distribuzione $\chi ^{2}$ .