Il termine di "varianza" venne introdotto nel 1918 da Ronald Fisher e sostituì nel tempo la denominazione di "deviazione standard quadratica" utilizzata da Karl Pearson.
Un esempio di "misura" dello scostamento di una variabile aleatoria dalla media è dato dalla disuguaglianza di Čebyšëv che controlla questo scostamento in termini dello scarto tipo:
dove
Proprietà
Segno della varianza
La varianza di una variabile aleatoria non è mai negativa, ed è zero solamente quando la variabile assume quasi certamente un solo valore , cioè se .
Massimo e minimo della varianza fissati i valori estremi della distribuzione
Dato un insieme di unità statistiche, dove e sono i valori minimo e massimo tra le unità, il massimo valore che può assumere la varianza è uguale a
Se dalle osservazioni si conosce soltanto la media , il valore è uguale a
Espressione della varianza come differenza tra il momento di ordine 2 e il quadrato del valore atteso
Varianza della somma di due variabili indipendenti
La varianza della somma di due variabili indipendenti o anche solo incorrelate è pari alla somma delle loro varianze
Dimostrazione
Se , allora e
e siccome le variabili sono indipendenti risulta
Nel caso generale basta traslare le variabili di modo che abbiano valore atteso nullo (come ); la loro varianza non cambia in quanto la varianza è invariante per traslazione.
Varianza della differenza di due variabili indipendenti
Usando le due precedenti affermazioni, possiamo dire che la varianza della differenza di due variabili indipendenti è pari alla somma delle loro varianze
Varianza della somma di due variabili non indipendenti
Se e non sono indipendenti, la formula viene corretta dalla loro covarianza,
dove
Varianza della media aritmetica di variabili indipendenti
In particolare, la media aritmetica di variabili aleatorie indipendenti aventi la medesima distribuzione, ha varianza aritmetica
Variabili aleatorie discrete e continue
La varianza di una variabile aleatoria discreta a valori in un insieme si calcola attraverso la sua funzione di probabilità:
La varianza di una variabile aleatoria continua a valori in un insieme si calcola attraverso la sua densità di probabilità:
Esempio
Una variabile aleatoria di Bernoulli, cioè che ha probabilità di fornire "1" e probabilità di fornire "0", ha valore atteso
Nel caso si disponga della distribuzione di frequenze di un carattere, è possibile calcolare più facilmente la varianza attraverso la seguente formula:
dove rappresenta il numero di modalità in cui si presenta il carattere x, mentre e sono rispettivamente la j-esima modalità di x e la relativa frequenza assoluta.
A partire dalla precedente formula, ricordando che , si ricava anche:
Esiste, infine, una formula semplificata per il calcolo della varianza:
Le formule corrispondenti alla precedente che fanno uso della frequenza assoluta e di quella relativa sono:
Un difetto della varianza è quello di non avere la stessa unità di misura dei valori analizzati (se, per esempio, questi sono in cm, la varianza sarà in cm2), perciò in statistica viene molto spesso utilizzata anche la radice quadrata della varianza, vale a dire lo scarto quadratico medio (o deviazione standard o scarto tipo) . Con riferimento a questa notazione la varianza si trova quindi anche indicata come .
Stimatori
In statistica si utilizzano solitamente due stimatori per la varianza su un campione di cardinalità :
e
dove è la media campionaria. Il primo è detto varianza campionaria, mentre il secondo è detto varianza campionaria corretta a causa della sua proprietà di correttezza. Infatti lo stimatore è privo di distorsione, cioè il suo valore atteso è proprio la varianza:
.
Dimostrazione
Al contrario, lo stimatore ha un valore atteso diverso dalla varianza, .
Una spiegazione del termine è data dalla necessità di stimare anche la media che per il teorema del limite centrale ha varianza 1/n. Se la media è nota, lo stimatore diventa corretto. Questa è detta "correzione di Bessel".