Écart type

dispersion des valeurs d'une variable aléatoire autour de sa valeur attendue

En mathématiques, l’écart type (aussi orthographié écart-type) est une mesure de la dispersion des valeurs d'un échantillon statistique ou d'une distribution de probabilité. Il est défini comme la racine carrée de la variance ou, de manière équivalente, comme la moyenne quadratique des écarts par rapport à la moyenne. Il se note en général avec la lettre grecque σ (« sigma »), d’après l’appellation standard deviation en anglais. Il est homogène à la variable mesurée.

Exemple de deux échantillons ayant la même moyenne (100) mais des écarts types différents illustrant l'écart type comme mesure de la dispersion autour de la moyenne. La population rouge a un écart type (SD = standard deviation) de 10 et la population bleue a un écart type de 50.

Les écarts types sont rencontrés dans tous les domaines où sont appliquées les probabilités et la statistique, en particulier dans le domaine des sondages, en physique, en biologie ou dans la finance. Ils permettent en général de synthétiser les résultats numériques d'une expérience répétée. Tant en probabilités qu'en statistique, il sert à l'expression d'autres notions importantes comme le coefficient de corrélation, le coefficient de variation ou la répartition optimale de Neyman.

Quand l'écart type d'une population est inconnu, sa valeur est approchée à l'aide d'estimateurs.

Exemples

Population de personnes de même taille

On considère une population de 4 personnes mesurant 2 m. La moyenne des tailles est de 2 m. Chaque valeur étant égale à la moyenne, l'écart type est de 0 m.

Population de personnes de tailles différentes

On considère maintenant une population de 4 personnes de taille 2 m, 1,80 m, 2,20 m et 2 m. La moyenne est aussi de . Les écarts par rapport à la moyenne sont maintenant de 0 m, 0,20 m, 0,20 m et 0 m, respectivement. Ainsi l'écart type est la moyenne quadratique de ces écarts, c'est-à-dire , qui vaut environ 0,14 m.

Histoire

L'écart type est une grandeur dont l'invention remonte au XIXe siècle, qui voit la statistique se développer au Royaume-Uni.

C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion qui apparaît dans son ouvrage The Doctrine of Chances en 1718[b 1]. Mais le terme d'écart type (« standard deviation ») a été employé pour la première fois par Karl Pearson en 1893 devant la Royal Society[b 2]. C'est aussi Karl Pearson qui utilise pour la première fois le symbole σ pour représenter l'écart type[b 2]. En 1908, William Gosset, plus connu sous le pseudonyme de Student, définit l'écart type empirique d'un échantillon et montre qu'il est important de le distinguer de l'écart type d'une population[b 2]. La variance est une notion qui apparut plus tard, en 1918, dans un texte de Ronald Fisher intitulé The Correlation between Relatives on the Supposition of Mendelian Inheritance[i 1].

Sur population totale

Définition

À partir d'un relevé exhaustif (x1, ..., xn) d'une variable quantitative pour tous les individus d'une population, l'écart type est la racine carrée de la variance, c'est-à-dire[b 3],[1],[2] :

représente la moyenne. L'écart type est homogène à la variable mesurée, c'est-à-dire que si par un changement d'unité, toutes les valeurs sont multipliées par un coefficient α > 0, l'écart type sera multiplié par le même coefficient. En revanche, l'écart type est invariant par décalage additif : si on ajoute une constante à toutes les valeurs relevées, cela ne change pas l'écart type. Ces deux propriétés font de l'écart type un indicateur de dispersion.

Par contraste avec d'autres indicateurs de dispersion comme l'écart interquartile, l'écart type a l'avantage de pouvoir se calculer à partir des moyennes et écarts types sur une partition de la population, puisque la variance globale est la somme de la variance des moyennes et de la moyenne des variances. Cela permet de calculer l'écart type en parallèle.

L'écart type est implémenté en Python dans la bibliothèque numpy avec la méthode std. En R, la fonction sd utilise à la place de [3], ce qui correspond à l'estimateur de l'écart-type d'une population à partir d'un échantillon.

Expression comme distance

L'écart type est la distance euclidienne du point de coordonnées à la droite diagonale engendrée par le vecteur dans , atteinte en son projeté orthogonal de coordonnées .

L'écart type est donc le minimum de la fonction qui calcule la distance entre M et le point de coordonnées (t, ..., t).

Coefficient de variation

L'écart type peut être utilisé pour comparer l'homogénéité de plusieurs populations sur une même variable. Par exemple, si on donne deux classes d'un même niveau moyen et évaluées selon les mêmes critères, la classe avec un plus fort écart type des notes sera plus hétérogène. Dans le cas d'une notation de à , l'écart type minimal est (notes toutes identiques), et peut valoir jusqu'à si la moitié de la classe à et l'autre moitié [Note 1].

En revanche, on ne peut comparer tels quels les écarts types de variables différentes, et dont les ordres de grandeur ne correspondent pas nécessairement. Pour une variable quantitative strictement positive, on définit alors le coefficient de variation, égal au quotient de l'écart type par la moyenne[b 4]. Ce nombre adimensionnel ne dépend pas de l'unité de mesure choisie et permet de comparer la dispersion de variables différentes.

Un coefficient de variation élevé peut éventuellement signaler l'existence d'une valeur aberrante. Un critère consiste à rejeter les valeurs qui diffèrent de la moyenne par plus de 3 fois l'écart type. Dans le cas d'une distribution gaussienne, la probabilité d'un tel dépassement[b 5] est de l'ordre de 3/1000.

Pour une variable aléatoire

Définition

La modélisation probabiliste d'une distribution statistique consiste à définir une variable aléatoire, c'est-à-dire une application X avec une mesure de probabilité , laquelle permet de définir les probabilités de la forme . La donnée de ces probabilités constitue la loi de probabilité[b 6] de X.La modélisation est fidèle si la probabilité d'un évènement correspond à la fréquence d'occurrence des valeurs correspondantes dans la population testée, conformément à la loi des grands nombres.

On s'intéresse ici aux variables aléatoires réelles ou vectorielles de carré intégrable, c'est-à-dire dont l'espérance E(X2) converge. Pour une variable vectorielle (à valeurs dans un espace vectoriel normé complet), l'espérance est un vecteur du même espace et le carré désigne le carré de la norme. L'ensemble de ces variables est lui-même un espace vectoriel.

L'écart type de X est la racine carrée de la variance[Note 2],[i 2] .

L'existence de l'écart type est assurée pour une variable aléatoire bornée ou admettant une fonction de densité dominée à l'infini par une fonction puissance avec α > 3.

Exemples

Dans le cas d'une variable aléatoire discrète dont les valeurs sont notées xi, avec , l'écart type s'écrit comme pour une série statistique , où μ est l'espérance de la loi de X.

En particulier, si X est uniforme[b 7] sur un ensemble fini , c'est-à-dire si

pour tout i entre 1 et n,

alors

.

Dans le cas d'une variable aléatoire à densité pour laquelle les probabilités s'écrivent f est une fonction localement intégrable, pour la mesure de Lebesgue par exemple, mais pas nécessairement une fonction continue[b 8], l'écart type de X est défini par est l'espérance de X.

Avec ces formules et la définition, le calcul des écarts types pour les lois couramment rencontrées est aisé. Le tableau suivant donne les écarts types de quelques-unes de ces lois :

Nom de la loiParamètre(s)DescriptionÉcart type
Loi de Bernoulli[b 7]p ∈ ]0 ; 1[Loi discrète sur {0 ; 1} avec une probabilité p d'obtenir 1
Loi binomiale[b 9] et p ∈ ]0 ; 1[Loi de la somme de n variables indépendantes suivant la loi de Bernoulli de même paramètre p
Loi géométrique[b 10]p ∈ ]0 ; 1[Loi du rang de la première réalisation dans une suite de variables de Bernoulli indépendantes de même paramètre p
Loi uniforme sur un segment[b 11]a < bLoi de densité constante sur[a , b]
Loi exponentielle[b 11] Loi à densité avec un taux de panne constant λ
Loi de Poisson[b 12] Loi sur du nombre de réalisations indépendantes sur de moyenne λ
Loi du χ²[b 13]nLoi de la somme de n carrés de variables normales centrées réduites indépendantes

Si la variable X suit une loi log-normale alors ln X suit une loi normale et l'écart type de X est relié à l'écart type géométrique[b 14].

Mais toutes les lois de probabilité n'admettent pas forcément un écart type fini : la loi de Cauchy (ou loi de Lorentz) n'a pas d'écart type, ni même d'espérance mathématique[b 15].

Propriétés

Positivité
L'écart type est toujours positif ou nul. Celui d'une constante est nul.
Invariance par translation
L'écart type ne change pas si on ajoute une constante b à la variable aléatoire X : σX+bX.
Homogénéité[Note 3],[b 16]
Pour toute constante positive c et toute variable aléatoire réelle X, on a σcX = c σX.
Somme algébrique de deux variables
L'écart type de la somme de deux variables s'écrit[b 17] sous la forme

ρ(X,Y) est le coefficient de corrélation entre les deux variables X et Y.

Inégalité triangulaire
L'écart type de la somme est majoré par la somme des écarts types[Note 4] :
.
De plus, il y a égalité si et seulement s'il existe une relation affine presque sûre entre les deux variables.
Distance euclidienne
L'écart type d'une variable aléatoire réelle X est la distance euclidienne de cette variable à la droite des constantes dans l'espace des variables admettant une variance[b 18]. C'est donc le minimum de la fonction , atteint sur la constante c = E(X).

Usages

Intervalle de fluctuation

Représentation graphique de la fonction de densité d'une loi normale. Chaque bande colorée a la largeur d'un écart type.

En sciences, il est fréquent de considérer que les mesures d'une grandeur se répartissent selon une distribution gaussienne, par accumulation d'erreurs de mesure ou d'interférences indépendantes avec d'autres phénomènes, en application du théorème central limite. L'histogramme des valeurs observées se rapproche alors d'une courbe en cloche caractéristique de la loi normale. La courbe étant complètement définie par la donnée de la valeur moyenne et de l'écart type, ces deux valeurs permettent de définir un intervalle de fluctuation qui concentre l'essentiel des observations.

Le calcul des quantiles de cette loi montre par exemple que pour une grandeur satisfaisant cette distribution sur une population d'individus, avec une moyenne m et un écart type σ,95 % des valeurs observées appartiendront à l'intervalle [m – 1,96 σ ; m + 1,96 σ] (voir 97,5e centile). On peut ainsi associer des probabilités à des intervalles de valeurs centrés sur la moyenne et dont l'amplitude est un multiple de l'écart type[b 19].

Intervalles de fluctuation pour une distribution gaussienne
Écart maximal à la moyenneProportion des valeurs
68,27 %
95 %
95,45 %
99,73 %

Dans l'industrie, l'écart type intervient dans le calcul de l'indice de qualité des produits manufacturés ou dans l'indice de fidélité d'un appareil de mesure[i 3],[i 4].

En physique des particules, la détection d'évènements est ainsi quantifiée en nombre de sigmas, représentant l'écart entre la valeur observée et la moyenne attendue en l'absence d'évènement. Un résultat est considéré comme significatif par l'obtention de 5 sigmas, représentant une probabilité d'erreur inférieure à 0,00006 % (soit niveau de confiance de plus de 99,99994 %)[i 5].

La moyenne mobile est en rouge et les bandes de Bollinger, calculées à l'aide de l'écart type, sont en bleu.

Dans le domaine de la communication financière, l'écart type est une mesure de la volatilité des cours des actions des sociétés cotées[b 20]. Les bandes de Bollinger sont des outils facilitant l'analyse des prévisions boursières. John Bollinger a construit la courbe des moyennes mobiles sur 20 jours et les courbes, de part et d'autre de cette courbe, situées à deux fois l'écart type sur ces 20 jours. John Bollinger a utilisé une définition adaptée de l'écart type[i 6]. En outre, le risque d'un actif boursier et le risque associé au marché sont mesurés par l'écart type de la rentabilité attendue, dans le modèle d'évaluation des actifs financiers de Harry Markowitz[i 7].

Variable centrée réduite

Exemples de distributions asymétriques.
Exemples de distributions plus ou moins aplaties.

Si X est une variable aléatoire d'écart type non nul, on peut lui faire correspondre la variable centrée et réduite Z définie par . Deux variables aléatoires centrées et réduites Z1 et Z2 sont aisées à comparer, puisque E(Zi)=0 et σZi=1[b 21].

Le théorème central limite a pour objet la limite d'une suite de variables aléatoires centrées réduites[b 22], les coefficients de dissymétrie et d'aplatissement d'une densité de probabilité, E(Z3) et E(Z4), permettent de comparer des distributions différentes[b 23].

Coefficient de corrélation linéaire

Si X et Y sont deux variables aléatoires réelles admettant toutes les deux une variance non nulle, le coefficient de corrélation linéaire est le rapport est la covariance des variables X et Y. D'après l'inégalité de Cauchy-Schwarz,  ; le coefficient de corrélation prend ses valeurs dans l'intervalle [–1 ; +1][b 24].

Si les deux variables sont indépendantes, le coefficient de corrélation linéaire est nul, mais la réciproque est fausse.

Si le coefficient de corrélation linéaire vaut 1 ou −1, les deux variables sont presque sûrement en relation affine[b 25].

Inégalité de Bienaymé-Tchebychev

C'est grâce à l'inégalité de Bienaymé-Tchebychev que l'écart type apparaît comme une mesure de la dispersion autour de la moyenne. En effet, cette inégalité exprime que [b 26] et montre que la probabilité pour que X s'écarte de E(X) de plus de k fois l'écart type est inférieure à 1/k2[b 27].

Principe d'incertitude

En mécanique quantique, le principe d'incertitude d'Heisenberg exprime que le produit des écarts types de la position x et de l'impulsion p d'une particule est supérieur ou égal à la constante de Planck réduite divisée par deux, soit [i 8].

Estimation

Lorsqu'il n'est pas possible de connaître toutes les valeurs de la caractéristique considérée, on se trouve dans le cadre de la théorie statistique. Le statisticien procède alors par échantillonnage et estimation pour évaluer les grandeurs analysées telles que l'écart type.

L'écart type sert à indiquer, à l'aide de barres d'erreur, l'incertitude sur la largeur moyenne des sépales.

Un estimateur est une fonction permettant d'approcher un paramètre d'une population à l'aide d'un échantillon tiré au hasard[b 28], ou une grandeur sur un phénomène aléatoire à partir de plusieurs réalisations de celui-ci.

Dans le cas d'un échantillon de taille n, et dont la vraie moyenne -ou espérance- μ est connue, l'estimateur est le suivant :

Malheureusement, le plus souvent on ne connaît pas μ et on doit l'estimer à partir de l'échantillon lui-même grâce à l'estimateur suivant : . Différents estimateurs de l'écart type sont généralement utilisés. La plupart de ces estimateurs s'expriment par la formule :
Sn – 1 (ou S′) est l'estimateur le plus utilisé[b 29],[b 3], mais certains auteurs recommandent d'utiliser Sn (ou S)[i 9].

Propriétés des estimateurs

Deux propriétés importantes des estimateurs sont la convergence et l'absence de biais[b 3].

Pour tout k tel que k/n tende vers 1, la loi des grands nombres garantit que S2
n
puis S2
k
sont des estimateurs convergents de σ2. Grâce au théorème de continuité, stipulant que si f est continue, alors . La fonction racine carrée étant continue, Sk converge lui aussi vers σ. En particulier Sn et Sn – 1 sont des estimateurs convergents de σ, ce qui reflète l'approximation de σ par ces deux séries lorsque n devient de plus en plus grand[Note 5],[b 30] et conforte le statisticien à utiliser ces estimateurs.

L'estimateur de la variance S2
n – 1
est sans biais. Cependant, la non-linéarité de la fonction racine carrée fait que Sn – 1 est légèrement biaisé[i 9]. Les estimateurs S2
n
et Sn sont eux aussi biaisés. Le fait de faire intervenir non pas n mais n – 1 au dénominateur (correction de Bessel) dans le calcul de la variance vient du fait que déterminer la moyenne de x à partir de l'échantillon fait perdre un degré de liberté puisque la formule relie aux valeurs xi. On a donc seulement n – 1 valeurs indépendantes après le calcul de . Dans le cas ou l'on cherche à estimer l’écart-type d'une loi normale, on dispose d'un estimateur non biaisé de σ proche de [i 10]. Le choix de permet de corriger le biais supplémentaire lié à la racine carrée.

La précision, donnée par l'erreur quadratique moyenne, est difficile à calculer explicitement pour des lois quelconques. Il semblerait cependant qu'en dépit d'un biais plus important, Sn soit plus précis que Sn –1[i 9].

Écart type des moyennes

Pour estimer la précision de l'estimation de la moyenne d'une variable, la méthode du calcul de l'écart type de la distribution d'échantillonnage des moyennes est utilisée. Appelé aussi erreur type de la moyenne (« Standard error »), noté , c'est l'écart type des moyennes des échantillons de tailles identiques d'une population. Si n est la taille des échantillons prélevés sur une population d'écart type σ, et si N est la taille de la population, alors [b 31]. Lorsque l'écart type σ de la population est inconnu, il peut être remplacé par l'estimateur Sn–1[b 31]. Quand n est suffisamment grand (n ≥ 30), la distribution d'échantillonnage suit approximativement une loi de Laplace-Gauss, ce qui permet de déduire un intervalle de confiance, fonction de , permettant de situer la moyenne de la population par rapport à la moyenne de l'échantillon[b 32],[b 33].

Écart type des écarts types empiriques

En général, il est très difficile de calculer la loi de distribution des écarts types empiriques. Mais si Xn est une suite de variables aléatoires distribuées selon la loi normale , alors suit une loi du χ2 à n degrés de liberté[b 13],[Note 6].Cette loi a pour écart type 2n et donc l'écart type de la distribution des variances de variables normales a pour expression [b 13].

Sondages d'opinion

Dans les sondages d'opinion, l'écart type évalue l'incertitude des variations accidentelles de x inhérentes au sondage, ce qu'on appelle la marge d'erreur due aux variations accidentelles[i 11].

De plus, avec la méthode d'échantillonnage représentatif, lorsque les différentes strates ont des écarts types très différents, l'écart type est utilisé pour calculer la répartition optimale de Neyman qui permet d'évaluer la population dans les différentes strates en fonction de leur l'écart type ; en d'autres termes est la taille de l'échantillon dans la strate i, où n est la taille totale de l'échantillon, Ni est la taille de la strate i, σi l'écart type de la strate i[i 11].

En algorithmique

Les écarts types obtenus par un programme d'ordinateur peuvent être incorrects si on n'utilise pas un algorithme adapté aux données, comme lorsqu'on utilise celui qui exploite directement la formule sur des grands échantillons de valeurs comprises entre 0 et 1[i 12],[i 13].

Un des meilleurs algorithmes est celui de B.P. Welford qui est décrit par Donald Knuth dans son livre The Art of Computer Programming, vol. 2[i 14],[i 15].

Une approximation de l'écart type de la direction du vent est donnée par l'algorithme de Yamartino dont on se sert dans les anémomètres modernes[i 16],[i 17].

Notes et références

Notes

. Comme la fonction racine carrée est une fonction continue, Sn-1 et Sn sont des estimateurs convergents de l'écart type, autrement dit :
  • par définition de la loi du χ2
  • Références

    Ouvrages spécialisés

    Articles de revue

    Autres références

    Voir aussi

    Bibliographie

    Articles connexes

    Liens externes

    Ce document provient de « https:https://www.search.com.vn/wiki/index.php?lang=fr&q=Écart_type&oldid=213795782 ».
    🔥 Top keywords: