Paràmetre estadístic

En estadística s'anomena paràmetre estadístic, mesura estadística o paràmetre poblacional a un valor representatiu d'una població,^[1] com per exemple la mitjana aritmètica, la proporció d'individus que presenten determinada característica, o la desviació típica.^[2] Un paràmetre és un nombre que resumeix la gran quantitat de dades que poden recollir-se en l'estudi d'una variable estadística.^[3] El càlcul d'aquest nombre està ben definit, usualment, mitjançant una fórmula aritmètica obtinguda a partir de dades de la població.^[4]^[5] Els paràmetres estadístics són una conseqüència del propòsit de l'estadística: modelitzar la realitat.^[6] L'estudi d'una gran quantitat de dades individuals d'una població pot ser confús i inoperant, pel que es fa necessari realitzar un resum que permeti tenir una idea global de la població, comparar-la amb d'altres, comprovar el seu ajust a un model ideal, realitzar estimacions sobre dades desconegudes de la mateixa i, en definitiva, prendre decisions. Els paràmetres estadístics contribueixen a aquestes tasques.

Per exemple: es pot fer servir com a mesura i resum de la "joventut" d'una població, la mitjana aritmètica de les edats dels seus membres, és a dir, la suma de les edats, dividida entre el total d'individus que componen la població.

Enfocament descriptiu

Un paràmetre estadístic és un nombre que resumeix una quantitat de dades. Aquest enfocament és el tradicional de l'Estadística descriptiva.^[7]^[8]^[9] En aquest sentit, el seu significat s'apropa al de mesura o valor que es fa servir per comparar amb altres, prenent una unitat d'una determinada magnitud com a referència.

Per altra banda, l'Estadística matemàtica i també la Inferència estadística fan servir el concepte de paràmetre com a variable que defineix una família d'objectes matemàtics en determinats models. Així, per exemple, una distribució normal de paràmetres μ i σ és una distribució de probabilitat d'expressió coneguda, en la que aquests paràmetres defineixen aspectes concrets com l'esperança matemàtica, la variància, la curtosi, etc. Un altre exemple és el de la distribució de Poisson determinada per un paràmetre, λ; o la Distribució binomial, determinada per dos paràmetres, n i p. Des del punt de vista de l'Estadística matemàtica el fet que aquestes distribucions descriguin situacions reals i els esmentats paràmetres signifiquin un resum d'un determinat conjunt de dades és indiferent.

Propietats desitjables en un paràmetre

Segons Yule^[10] és desitjable que un paràmetre estadístic tingui les següents propietats:

Estar definit de manera objectiva, és a dir, s'ha de poder calcular sense ambigüitats, generalment, mitjançant una fórmula matemàtica. Per exemple: la mitjana aritmètica es defineix com la suma de totes les dades, dividida entre el nombre de dades. No hi ha ambigüitat: si es fa aquest càlcul, s'obté la mitjana. Tanmateix, la definició de moda com el "valor més freqüent", pot donar lloc a confusió quan hi ha diversos valors diferents amb la mateixa freqüència màxima.
No malgasta, a priori, cap de les observacions. Amb caràcter general, un paràmetre serà més representatiu d'una determinada població, com més valors de la variable estiguin implicats al seu càlcul. Per exemple: per mesurar la dispersió pot calcular-se el recorregut, que només fa servir dos valors de la variable objecte d'estudi, els extrems; o la desviació típica, en el càlcul de la qual intervenen totes les dades.
És interpretable, significa alguna cosa. La mediana, per exemple, deixa per sota del seu valor a la meitat de les dades, està just al mig de totes quan estan ordenades. Aquesta és una interpretació clara del seu significat.
És senzill de calcular i es presta amb facilitat a manipulacions algebraiques. Es veurà més endavant que una mesura de la dispersió és la desviació mitjana. Tanmateix, en estar definida mitjançant un valor absolut, funció definida a trossos i no derivable, no és útil en gran part dels càlculs en què podria estar implicada, encara que la seva interpretació sigui molt clara.
És poc sensible a les fluctuacions mostrals. Si petites variacions en una mostra de dades estadístiques influeixen en gran manera en un determinat paràmetre, és perquè tal paràmetre no representa amb fiabilitat la població. Així doncs és desitjable que el valor d'un paràmetre amb aquesta propietat es mantingui estable davant de les petites oscil·lacions que amb freqüència poden presentar les diferents mostres estadístiques. Aquesta propietat és més interessant en el cas de l'estimació de paràmetres. D'altra banda, els paràmetres que no varien amb els canvis d'origen i escala o la variació dels quals està controlada algebraicament, són apropiats en determinades circumstàncies com la tipificació.

Principals paràmetres

Habitualment els paràmetres s'agrupen en les següents categories:

Mesures de posició.^[11]

Es tracta de valors de la variable estadística que es caracteritzen per la posició que ocupen dins del rang de valors possibles d'aquesta. Entre ells es distingeixen:

Les mesures de tendència central: mitjanes, moda i mediana.
Les mesures de posició no central: quantils (quartils, decils i percentils).

Mesures de dispersió.^[12]

Resumeixen l'heterogeneïtat de les dades, com de separades que estan entre elles. Bàsicament n'hi ha de dos tipus:

Mesures de dispersió absolutes: que venen donades en les mateixes unitats en les quals es mesura la variable: recorreguts, desviacions mitjanes, variància, desviació típica i mediana de les desviacions.
Mesures de dispersió relativa: que informen de la dispersió en termes relatius, com un percentatge. S'inclouen entre aquestes el coeficient de variació, el coeficient d'obertura, els recorreguts relatius i l'índex de desviació respecte de la mitjana.

Mesures de forma.^[13]

El seu valor informa sobre l'aspecte que té la gràfica de la distribució. Entre elles hi ha els coeficients d'asimetria i els de curtosi.

Altres paràmetres.

A més a més, i amb propòsits més específics, hi ha altres paràmetres d'ús en situacions molt concretes, com són les proporcions, els nombres índex, les taxes i el coeficient de Gini.

Mesures de posició

Les mesures de posició són les més utilitzades per resumir les dades d'una distribució estadística. Es tracta de valors de la mateixa variable^[14] que, en certa manera, substitueixen la informació proveïda per les dades.

Mesures de posició central

Són valors que solen situar-se cap al centre de la distribució de dades. Els més destacats són la mitjana aritmètica, la mediana i la moda.

Altres mesures de posició central són la mitjana geomètrica i la mitja harmònica que, tot i que tenen determinades propietats algebraiques que podrien fer-les útils en determinades circumstàncies, la seva interpretació no és tan intuïtiva com la dels paràmetres anteriors.^[15]

Mitjana aritmètica

La mitjana aritmètica és, probablement, un dels paràmetres estadístics més estesos.^[16] Donat un conjunt numèric de dades, 'x₁, 'x₂..., 'x_n, es defineix la seva mitjana aritmètica com a

{\overline {x}}={\frac {x_{1}+x_{2}+...+x_{n}}{n}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}

Aquesta definició varia, encara que no de manera substancial, quan es tracta de variables contínues.

Les seves propietats són:^[17]

El seu càlcul és molt senzill i hi intervenen totes les dades.
S'interpreta com a "punt d'equilibri" o "centre de masses" del conjunt de dades, ja que té la propietat d'equilibrar les desviacions de les dades respecte del seu propi valor:

{\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})}{n}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}-{\frac {\sum _{i=1}^{n}{\overline {x}}}{n}}={\overline {x}}-{\overline {x}}=0

Minimitza les desviacions quadràtiques de les dades respecte qualsevol valor prefixat, això és, el valor de ${\frac {\sum _{i=1}^{n}(x_{i}-k)^{2}}{n}}$ és mínim quan $k={\overline {x}}$ . Aquest resultat es coneix com a Teorema de König. Aquesta propietat permet interpretar un dels paràmetres de dispersió més importants: la variància.

Es veu afectada per transformacions afins (canvis d'origen i escala), això és, si: $x_{i}'=ax_{i}+b$ llavors ${\overline {x'}}=a{\overline {x}}+b$ , on ${\overline {x'}}$ és la mitjana aritmètica dels $x_{i}'$ , per a i' ' =1..., 'n' i 'a' i 'b' nombres reals.

Aquest paràmetre, encara que té múltiples propietats que aconsellen el seu ús en situacions molt diverses, té també alguns inconvenients, com ara:

Per a dades agrupades en intervals (variables contínues) el seu valor oscil·la en funció de la quantitat i amplitud dels intervals que es consideri.

La dispersió afecta sobre manera al significat de la mitjana, de manera que com menys homogènies són les dades, menys informació proporciona. Dit d'una altra manera, poblacions molt diferents en la seva composició poden tenir la mateixa mitjana.^[18] Per exemple, un equip de bàsquet amb cinc jugadors d'igual estatura, 1,95, tindria una estatura mitjana d'1,95, evidentment, valor que representa fidelment a aquesta homogènia població. Tanmateix, un equip d'estatures més heterogènies, 2,20, 2,15, 1,95, 1,75 i 1,70, per exemple, tindria també una estatura mitjana d'1,95, valor que no representa a gairebé cap dels seus components.

És sensible als valors extrems de la variable. Per exemple, en el càlcul del salari mitjà d'una empresa, el salari d'un alt directiu que guanyi 1.000.000 de € té tant de pes com el de mil empleats "normals" que guanyin 1.000 €, sent la mitjana d'aproximadament 2.000 €.

Moda

La moda és la dada més repetida, el valor de la variable amb major freqüència absoluta.^[19] En cert sentit es correspon la seva definició matemàtica amb la locució "estar de moda", això és, ser el que més es porta.

El seu càlcul és extremadament senzill, ja que només necessita un recompte. En variables contínues, expressades en intervals, hi ha l'interval denominat modal o, si no n'hi ha, si és necessari obtenir un valor concret de la variable, es recorre a la interpolació.

Les seves principals propietats són:

Càlcul senzill.
Interpretació molt clara.
Com que depèn només de les freqüències, pot calcular-se per a variables qualitatives. És per això el paràmetre més utilitzat quan no és possible fer altres càlculs per resumir una població, per exemple, quan s'enumeren en mitjans periodístics les característiques més freqüents de determinat sector social. Això es coneix informalment com a "retrat robot".^[20]

Inconvenients.

El seu valor és independent de la major part de les dades, la qual cosa la fa molt sensible a variacions mostrals. D'altra banda, en variables agrupades en intervals, el seu valor depèn excessivament del d'intervals i de la seva amplitud.
Fa servir molt poques observacions, de manera que grans variacions en les dades fora de la moda, no afecten en cap manera al seu valor.
No sempre se situa cap al centre de la distribució.
Pot haver-hi més d'una moda en el cas en què dos o més valors de la variable presentin la mateixa freqüència (distribucions bimodals o multimodals).

Mediana

La mediana és un valor de la variable que deixa per sota seu a la meitat de les dades quan es presenten ordenades de menor a major.^[21] Per exemple, la mediana del nombre de fills d'un conjunt de tretze famílies, si els seus respectius fills són: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 i 1, és 2, ja que, una vegada ordenades les dades: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posició central és 2:

\underbrace {1,\ 1,\ 1,\ 1,\ 1,\ 1,} _{Meitat\;inferior}\;\underbrace {\color {Red}2,} _{Mediana\;}\;\underbrace {2,\ 2,\ 2,\ 3,\ 3,\ 4} _{Meitat\;superior}

En cas d'un nombre parell de dades, la mediana no correspondria a cap valor de la variable, per la qual cosa, per convenció, es pren com a mediana el valor intermedi entre els dos valors centrals. Per exemple, en el cas de dotze dades com les anteriors:

\underbrace {1,\ 1,\ 1,\ 1,\ 1,} _{Valors\;inferiors}\;\underbrace {\color {Red}1,\ 2,} _{Valors\;intermedis}\;\underbrace {2,\ 2,\ 3,\ 3,\ 4} _{Valors\;superiors}

Es pren com a mediana $1,5={\frac {{\color {Red}1}+{\color {Red}2}}{2}}$

Hi ha mètodes de càlcul més ràpids per a dades més nombroses. De la mateixa manera, per a valors agrupats en intervals, es troba l'"interval mitjà" i, dins d'aquest, s'obté un valor concret per interpolació.

Propietats de la mediana com a paràmetre estadístic:^[22]

És menys sensible que la mitjana a oscil·lacions dels valors de la variable. Un error de transcripció en la sèrie de l'exemple anterior en l'últim nombre, deixa la mediana inalterada.
Pot calcular-se per a dades agrupades en intervals, fins i tot quan algun d'ells no està delimitat.
No es veu afectada per la dispersió. De fet, és més representativa que la mitjana aritmètica quan la població és bastant heterogènia. Sol donar-se aquesta circumstància quan es resumeix la informació sobre els salaris d'un país o una empresa. Hi ha uns quants salaris molt alts que eleven la mitjana aritmètica fent que perdi representativitat respecte al gruix de la població. Tanmateix, algú amb un salari igual a la "mediana" sabria que hi ha tanta gent que guanya més diners que ell, com que en guanya menys.

Els seus principals inconvenients són que en el cas de dades agrupades en intervals, el seu valor varia en funció de l'amplitud d'aquests. D'altra banda, no es presta a càlculs algebraics tan bé com la mitjana aritmètica.

Mesures de posició no central

Les mesures de posició no central, també conegudes com a quantils, són valors de la variable estadística que deixen per sota de si determinada quantitat de les dades. Són, en definitiva, una generalització del concepte de la mediana. Mentre que la mediana deixa per sota al 50\% de la distribució, els quantils poden fer-ho amb qualsevol altre percentatge.^[23] Es denominen mesurades de posició perquè informen, precisament, de la posició que ocupa un valor dins de la distribució de dades.

Tradicionalment es distingeix entre quartils, si es divideix la quantitat de dades en quatre parts abans de procedir al càlcul dels valors que ocupen cada posició; decils, si es divideix les dades en deu parts; o percentils, que divideix la població en cent parts.

Exemples: si es diu que una persona, després d'un test d'intel·ligència, ocupa el percentil 75, això vol dir que el 75\% de la població té un quocient intel·lectual amb un valor inferior al d'aquesta persona.

L'exemple que es mostra en la imatge de la dreta és el corresponent al càlcul invers, això és, quan es desitja conèixer el percentil corresponent a un valor de la variable, en lloc del valor que correspon a un determinat percentil.

Comentaris sobre les mesures de posició

Aquest tipus de paràmetres no tenen per què coincidir amb un valor exacte de la variable i, per tant, tampoc no poden fer-se servir amb caràcter general per fer pronòstics. Per exemple: si es diu que la mitjana aritmètica dels fills de les famílies d'un país és d'1,2, no és possible trobar famílies amb aquest valor en concret. Un segon exemple: a cap fàbrica de sabates no se li ocorreria fabricar els seus amb talles únicament corresponents al valor de la mitjana, ni tan sols tenen per què ser aquestes talles les més fabricades, ja que en tal cas seria més apropiat atendre a la moda de la distribució de talles dels eventuals clients.

L'elecció d'un o un altre paràmetre dependrà de cada cas particular, dels valors de la variable i dels propòsits de l'estudi. El seu ús indiscriminat pot ser deliberadament tendenciós o involuntàriament esbiaixat, convertint-se, de fet, en un abús. Pot pensar-se, per exemple, en la següent situació: un empresari publica que el salari mitjà en la seva empresa és de 1600 €. Aquesta dada, que en determinades circumstàncies podria considerar-se molt bona, podria resultar que l'empresa tingués quatre empleats amb salaris de 1000 € mensuals i el salari del cap, inclòs a la mitjana, fos de 4000 € al mes:^[24] < math>\bar{x} = \frac{1000+1000+1000+1000+4000}{5} = 1600</math> Amb caràcter general i com a resum, podria dir-se que la mitjana aritmètica és un paràmetre representatiu quan la població en segueix una distribució normal o és bastant homogènia; en altres situacions de forta dispersió, caldria decantar-se per la mitjana. La moda és l'últim recurs (i l'únic) quan es tracta de descriure variables qualitatives.

Mesures de dispersió

Les mesures de posició resumeixen la distribució de les dades, però resulten insuficients i simplifiquen excessivament la informació. Aquestes mesures adquireixen verdader significat quan van acompanyades d'altres que informin sobre l'heterogeneïtat de les dades. Els paràmetres de dispersió mesuren això precisament, generalment, calculant en quina mesura les dades s'agrupen entorn d'un valor central. Indiquen, d'una manera ben definida, com d'homogènies són aquestes dades. Hi ha mesures de dispersió absolutes, entre les quals es troben la variància, la desviació típica o la desviació mitjana, encara que també n'hi ha altres menys utilitzades com els recorreguts o la mediana de les desviacions; i mesures de dispersió relatives, com el coeficient de variació, el coeficient d'obertura o els recorreguts relatius. En moltes ocasions les mesures de dispersió s'ofereixen acompanyant a un paràmetre de posició central per indicar en quina mesura les dades s'agrupen entorn seu.^[25]

Mesures de dispersió absolutes

Recorreguts

El recorregut o rang d'una variable estadística és la diferència entre el major i el menor valor que pren la variable. És la mesura de dispersió més senzilla de calcular, encara que és una mica basta perquè només pren en consideració un parell d'observacions. N'hi ha prou que una d'aquestes dues dades variï perquè el paràmetre també ho faci, encara que la resta de la distribució continuï sent, essencialment, la mateixa.

Hi ha altres paràmetres dins d'aquesta categoria, com els recorreguts o rangs interquantílics, que tenen en compte més dades i, per tant, que permeten afinar en la dispersió. Entre els més usats hi ha el rang interquartílic que es defineix com la diferència entre el quartil tercer i el quartil primer. En aquest rang hi ha, per la mateixa definició dels quartils, el 50% de les observacions. Aquest tipus de mesures també es fan servir per determinar valors atípics. En el diagrama de caixa que apareix a la dreta es marquen com valors atípics tots aquells que cauen fora de l'interval ['L_i', 'L_s '] = [Q₁ - 1,5·R_s, Q₃ + 1,5·R_s], on 'Q₁ i Q₃ són els quartils 1r i 3r, respectivament, i R_s representa la meitat del recorregut o rang interquartilic, també conegut com a recorregut semiinterquartilic.^[26]

Desviacions mitjanes

Donada una variable estadística X i un paràmetre de tendència central, c, s'anomena desviació d'un valor de la variable, x_i, respecte de c, al nombre |x_i - c|. Aquest nombre mesura la llunyania de cada dada del valor central c, per això una mitjana d'aquestes mesures podria resumir el conjunt de desviacions de totes les dades.

Així doncs, es denomina desviació mitjana respecte de c a la mitjana aritmètica de les desviacions dels valors de la variable respecte de c, això és, si $X={x_{1},\,x_{2},\,...,\,x_{n}},$ llavors $DM_{c}={\frac {\sum _{i=1}^{n}\left|x_{i}-c\right|}{n}}$ D'aquesta manera es defineixen la desviació mitjana respecte de la mitjana (c = ${\overline {x}}$ ) o la desviació mitjana respecte de la mediana (c = ${\overline {Me}}$ ), la interpretació de la qual és senzilla en virtut del significat de la mitjana aritmètica.^[25] Tanmateix, malgrat la seva clara interpretació, l'ús de valors absoluts impedeix determinats càlculs algebraics que obliguen a rebutjar aquests paràmetres en favor dels quals s'expliquen tot seguit.

Variància i desviació típica

Tal com es va explicar més amunt, la suma de totes les desviacions respecte a la mitjana aritmètica, és zero. Per tant si es desitja una mesura de la dispersió sense els inconvenients per al càlcul que tenen les desviacions mitjanes, una solució és elevar al quadrat tals desviacions abans de calcular la mitjana. Així, es defineix la variància com:^[27]

{\sigma ^{2}}={\frac {\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}{n}}

,

és a dir, la mitjana de les desviacions respecte de la mitjana, elevades cada una al quadrat.

La desviació típica, es defineix com l'arrel quadrada de la variància, és a dir,

{\sigma }={\sqrt {\sigma ^{2}}}

Per a variables agrupades en intervals, s'usen les marques de classe (un valor apropiat de l'interior de cada interval) en aquests càlculs.

Propietats:^[27]

Cap dels dos paràmetres no s'alteren amb els canvis d'origen.
Si tots els valors de la variable es multipliquen per una constant, 'b', la variància queda multiplicada per 'b².
En l'interval $({\overline {x}}-k\sigma ,\,{\overline {x}}+k\sigma )$ es troben, almenys, el $100(1-{\frac {1}{k^{2}}})\%$ de les observacions (vegeu Desigualtat de Tchebyschev).^[28] Aquesta última propietat mostra la potència de l'ús conjunt de la mitjana i la desviació típica com a paràmetres estadístics, ja que per a valors de 'k' iguals a 1 i 2, respectivament, s'obté que:

En l'interval $({\overline {x}}-\sigma ,\,{\overline {x}}+\sigma )$ hi ha, pel capbaix, el 75% de les dades.
En l'interval $({\overline {x}}-2\sigma ,\,{\overline {x}}+2\sigma )$ hi ha, pel capbaix, el 89% de les dades.

Es compleix la següent relació entre els paràmetres de dispersió:

D_{Me}\leq D_{\overline {x}}\leq \sigma

on

D_{Me},\,D_{\overline {x}}

, i

\sigma

són, respectivament, la desviació mitjana respecte de la mitjana, la desviació mitjana respecte de la mediana i la desviació típica (vegeu Desviació mitjana).

Mediana de les desviacions

És una mesura de dispersió que té, per la seva pròpia definició, les mateixes propietats que la mitjana. Per exemple, no es veu afectada per valors extrems o atípics.^[29] No s'utilitza massa en estadística.

Mesures de dispersió relativa

Són paràmetres que mesuren la dispersió en termes relatius, un percentatge o una proporció, de manera que permeten una comparació senzilla entre la dispersió de diferents distribucions.^[30]

Coeficient de variació de Pearson

Es defineix com $C_{V}={\frac {\sigma }{\bar {x}}}$ , on σ és la desviació típica i ${\bar {x}}$ és la mitjana aritmètica.

S'interpreta com el nombre de vegades que la mitjana està continguda en la desviació típica. Sol donar-se el seu valor en tant per cent, multiplicant el resultat anterior per 100. D'aquesta manera, s'obté un percentatge de la variabilitat.

El seu principal inconvenient és que en el cas de distribucions en què la mitjana s'apropa a zero, el seu valor tendeix a infinit i fins i tot resulta impossible de calcular quan la mitjana és zero. Per això no pot fer-se servir per a variables tipificades.

Coeficient d'obertura

Es defineix com el quocient entre els valors extrems de la distribució de dades, és a dir, donada una distribució de dades estadístiques x₁, x₂..., x_n, el seu coeficient d'obertura, C_A és $C_{A}={\frac {m{\acute {a}}x(x_{i})}{m{\acute {\imath }}n(x_{i})}},\;i=1...,n$ . Es fa servir per a comparar salaris d'empreses.

Recorreguts relatius

Donat el recorregut d'una distribució de dades estadístiques R_e, el recorregut relatiu, R_R és $R_{R}={\frac {R_{e}}{\bar {x}}}$ , on ${\bar {x}}$ és la mitjana aritmètica de la distribució.

Donada una distribució de dades estadístiques amb quartils Q₁, Q₂ i Q₃, el recorregut interquartílic relatiu, R_IQR es defineix com^[31] $R_{IQR}={\frac {Q_{3}-Q_{1}}{Q_{2}}}$ d'altra banda, es defineix el recorregut semiinterquartílic relatiu, R_SIR, com $R_{SIR}={\frac {Q_{3}-Q_{1}}{Q_{3}+Q_{1}}}$

Índex de desviació respecte a la mitjana

Es defineix com $V_{Me}={\frac {D_{Me}}{Me}}$ , on D_Me és la desviació mitjana respecte de la mitjana i Me és la mitjana d'una distribució de dades estadístiques donada.

Mesures de forma

Les mesures de forma caracteritzen la forma de la gràfica d'una distribució de dades estadístiques. La majoria d'aquests paràmetres tenen un valor que sol comparar-se amb la campana de Gauss, això és, la gràfica de la distribució normal, una de les que amb més freqüència s'ajusta a fenòmens reals.

Mesures d'asimetria

Es diu que una distribució de dades estadístiques és simètrica quan la línia vertical que passa per la seva mitjana, divideix a la seva representació gràfica en dues parts simètriques. Això equival a dir que els valors equidistants de la mitjana, a una banda i a l'altra, presenten la mateixa freqüència.

En les distribucions simètriques els paràmetres mitjana, mediana i moda coincideixen, mentre que si una distribució presenta certa asimetria, d'un tipus o d'un altre, els paràmetres se situen com mostra el següent gràfic:

Això es pot demostrar fàcilment si es té en compte l'atracció que la mitjana aritmètica té pels valors extrems, que ja s'ha comentat més amunt i les definicions de mediana (just en el centre de la distribució, prenent l'eix d'abscisses com a referència) i moda (valor que presenta una ordenada més alta).

Per tant, la posició relativa dels paràmetres de centralització poden servir com una primera mesura de la simetria d'una distribució.

Altres mesures més precises són el coeficient d'asimetria de Fisher, el coeficient d'asimetria de Bowley i el coeficient d'asimetria de Pearson.

Mesures d'aplatament o curtosi

Amb aquests paràmetres es pretén mesurar com es reparteixen les freqüències relatives de les dades entre el centre i els extrems, prenent com comparació la campana de Gauss.

El paràmetre emprat amb més freqüència per a aquesta mesura és el coeficient de curtosi de Fisher definit com:

\gamma _{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{4}}{n\sigma ^{4}}}-3

tot i que n'hi ha d'altres com el coeficient de curtosis de Kelley o el coeficient de curtosis percentilic.

La comparació amb la distribució normal permet parlar de distribucions platicúrtiques o més aixafades que la normal; distribucions mesocurtiques, amb igual aplatament que la normal; i distribucions leptocúrtiques, això és, més apuntades que la normal.^[32]

Hi ha altres mesures per decidir sobre la forma d'una distribució amb ajust a models menys usuals com els que es mostren en les següents gràfiques:

Altres paràmetres

Hi ha altres paràmetres que tenen aplicació en situacions molt concretes, que troben ús freqüent en mitjans de comunicació i tenen la facultat de resumir grans quantitats de dades.

Proporció

La proporció d'una dada estadística és el nombre de vegades que es presenta aquesta dada respecte al total de dades. Es coneix també com freqüència relativa i és un dels paràmetres de càlcul més senzill. Té l'avantatge que pot calcular-se per a variables qualitatives.

Per exemple: si s'estudia el color dels ulls d'un grup de 20 persones, on 7 els tenen blaus, la proporció d'individus amb ulls blaus és del 35%.

La dada amb major proporció és la moda (vegeu més amunt).

En inferència estadística es determinen intervals de confiança per a l'estimació d'aquest paràmetre.

Nombre índex

Un nombre índex és una mesura estadística que permet estudiar les fluctuacions o variacions d'una magnitud o de més d'una en relació amb el temps o a l'espai. Els índexs més habituals són els que realitzen les comparacions en el temps. Alguns exemples d'ús quotidià d'aquest paràmetre són: l'índex de preus o l'IPC^[33]

Taxa

La taxa és un coeficient que expressa la relació entre la quantitat i la freqüència d'un fenomen o un grup de fenòmens. Es fa servir per indicar la presència d'una situació que no es pot mesurar de forma directa.^[33] Aquesta raó es fa servir en àmbits variats, com la demografia o l'economia, on es fa referència a la taxa d'interès.

Alguns dels més usats són: taxa de natalitat, taxa de mortalitat, taxa de creixement demogràfic, taxa de fertilitat o taxa de desocupació.

Coeficient de Gini

L'índex o coeficient de Gini és un paràmetre de dispersió usat per mesurar desigualtats entre les dades d'una variable o la seva major o menor concentració.

Aquest coeficient mesura de quina forma està distribuïda la suma total dels valors de la variable. Se sol utilitzar per descriure salaris. Els casos extrems de concentració serien aquells en els que una sola persona acapara el total dels diners disponibles per a salaris i aquells en els que aquest total està uniformement repartit entre tots els assalariats.^[34]

Moments

Els moments són una forma de generalitzar tota la teoria relativa als paràmetres estadístics i guarden relació amb una bona part d'ells.

Donada una distribució de dades estadístiques 'x₁, 'x₂... 'x_n, es defineix el moment central d'ordre kk com

\mu _{k}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{k}}{n}}

Per a variables contínues la definició canvia les sumes discretes per integrals, encara que la definició és, essencialment, la mateixa.^[35]

D'aquesta definició i les propietats dels paràmetres implicats que s'han vist més amunt, es dedueix immediatament que:

\mu _{0}=1;\;\mu _{1}=0;\;\mu _{2}=\sigma ^{2};\;

i que

\gamma _{1}={\frac {\mu _{3}}{\mu _{2}^{3}}};\;\;\gamma _{2}={\frac {\mu _{4}}{\mu _{2}^{4}}}

s'anomena moment no centrat d'ordre k a la següent expressió:

m_{k}={\frac {\sum _{i=1}^{n}(x_{i})^{k}}{n}}

De la definició es dedueix que:

m_{0}=1;\;m_{1}={\bar {x}};\;m_{2}-m_{1}^{2}=\sigma ^{2};

Emprant el Binomi de Newton pot obtenir-se la següent relació entre els moments centrats i no centrats:

\mu _{k}=\sum _{i=1}^{n}(-1)^{k}{k \choose i}m_{k-i}m_{1}^{i}

Els moments d'una distribució estadística la caracteritzen unívocament.^[36]

Paràmetres bidimensionals

A l'estadística de vegades s'estudien característiques d'una població per comparar-les, estudiar la seva dependència o correlació o realitzar qualsevol altre estudi conjunt. El cas més comú de dues variables es coneix com estadística bidimensional.^[37]

Un exemple típic: és el d'un estudi que reculli l'estatura (notada per X) i el pes (sigui I) dels n individus d'una determinada població. En aquest cas, fruit de la recollida de dades, s'obtindria una sèrie de parelles de dades ('x_i', 'y_i'), amb i =1..., 'n', cada una de les quals estaria composta respectivament per l'estatura i el pes de l'individu i.

En els estudis bidimensionals, cada una de les dues variables que entren en joc, estudiades individualment, poden resumir-se mitjançant els paràmetres que s'han vist fins ara. Així, tindria sentit parlar de la mitjana de les estatures ( ${\bar {X}}$ ) o la desviació típica dels pesos (_Y). Fins i tot per a un determinat valor de la primera variable, x_k, es pot fer estudis condicionats. Per exemple, la mitjana condicionada a l'estatura x_k seria la mitjana dels pesos de tots els individus que tenen aquesta estatura. Es nota Mi/x=x_k.

Tanmateix, existeixen altres paràmetres que resumeixen característiques d'ambdues distribucions en el seu conjunt. Els més destacats són el centre de gravetat, la covariància i el coeficient de correlació lineal.

Centre de gravetat

Donades dues variables estadístiques X i I, es defineix el centre de gravetat ( ${\bar {X}}$ , ${\bar {Y}}$ ), on ${\bar {X}}$ i ${\bar {Y}}$ són, respectivament, les mitjanes aritmètiques de les variables X i I.

El nom d'aquest paràmetre prové del fet que en una representació de les parelles de l'estudi en un núvol de punts, en la que cada punt tingués un pes proporcional a la seva freqüència absoluta, les coordenades ( ${\bar {X}}$ , ${\bar {Y}}$ ) correspondrien, precisament, al centre de gravetat com a concepte físic.^[38]

Covariància

La covariància o variància conjunta es defineix com:

\sigma _{xy}={\frac {1}{n}}\sum _{i=1}^{n}{(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})}

La interpretació d'aquest paràmetre té a veure amb l'eventual correlació lineal de les dues variables. Una covariància positiva implica una correlació directa i una negativa, una correlació inversa.^[39] d'altra banda, és un paràmetre imprescindible per al càlcul del coeficient de correlació lineal o els coeficients de regressió, com es veurà més a baix.

En contra seu té que es veu excessivament influïda, igual com succeïa amb la mitjana aritmètica, pels valors extrems de les distribucions i els canvis d'escala.

Coeficient de correlació lineal

És un coeficient que permet determinar la bondat de l'ajust del núvol de punts a una recta.

Es defineix com a: $r={\frac {\sigma _{xy}}{\sigma _{x}\sigma _{y}}}$ , on _xy és la covariància i _x i _y, les desviacions típiques respectives de les distribucions implicades.

El coeficient de correlació lineal pren valors entre -1 i 1. En aquesta escala, mesura la correlació de la següent manera:

La correlació lineal és més forta com més a prop estigui de -1 o 1.
La correlació lineal és més feble com més pròxim a zero estigui r. ^[40]

El diagrama de la dreta il·lustra com pot variar r en funció del núvol de punts associat:

Altres paràmetres bidimensionals són: el coeficient de correlació de Spearman, els coeficients de correlació no paramètrics, el coeficient de determinació o els coeficients de regressió lineal.

Igual que en distribucions unidimensionals, existeix una forma equivalent de desenvolupar la teoria relativa als paràmetres estadístics bidimensionals fent servir els moments.

Els paràmetres en la inferència estadística

De vegades, els paràmetres d'una determinada població no es poden conèixer amb certesa. Generalment, això succeeix perquè és impossible l'estudi de la població completa per qüestions com que el procés sigui destructiu (per exemple la vida mitjana d'una bombeta) o molt car (p. ex., audiències de televisió). En tals situacions es recorre a les tècniques de la inferència estadística per fer estimacions d'aquests paràmetres a partir dels valors obtinguts d'una mostra de la població.^[41]

Es distingeix llavors entre paràmetres i estadístics. Mentre que un paràmetre és una funció de les dades de la població l'estadístic ho és de les dades d'una mostra. D'aquesta manera, poden definir-se la mitjana mostral, la variància mostral o qualsevol altre paràmetre dels que s'han vist més amunt.

Per exemple, donada una mostra estadística de mida n, $(x_{1},\ x_{2},\ ...,\ x_{n})$ , d'una variable aleatòria X amb distribució de probabilitat F(x,), on θ és un conjunt de paràmetres de la distribució, es definiria la mitjana mostral n-èsima com a:

${\bar {X}}_{n}=T(x_{1},x_{2},...,x_{n})={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {x_{1}+x_{2}+...+x_{n}}{n}}$

En el cas concret de la variància mostral, s'acostuma a prendre, per les seves millors propietats com estimador, el següent:

$S_{n}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X_{n}}})^{2}$

on s'ha pres com a denominador n-1, en lloc de n. A aquest paràmetre també se l'anomena quasivariància.^[42]

Vegeu també

Desigualtat de Tchebyschev, teorema que mostra la quantitat de dades que resumeixen conjuntament la mitjana aritmètica i la desviació típica.
Diagrama de caixa, gràfic en el qual s'aprecien visualment les característiques d'alguns dels paràmetres de centralització, posició i dispersió.
Dispersió (matemàtiques).
Estadística descriptiva. La teoria estadística relativa als paràmetres, tal com s'han exposat en aquest article, pertany a aquesta especialitat matemàtica.
Estadística robusta.
Estadístic, concepte equivalent al de paràmetre quan es tracta d'una mostra.
Estimació de paràmetres, diversos mètodes per predir el valor real de determinats paràmetres poblacionals quan aquests no es poden conèixer mitjançant experiències.
Interval de confiança, mètode per estimar el valor aproximat d'un paràmetre estadístic.
Paràmetre, com a objecte matemàtic.

Paràmetres més comuns:
- Paràmetres de centralització.
  - Mitja aritmètica, mitja geomètrica, mitja harmònica.
  - Mediana.
  - Moda.
- Paràmetres de dispersió.
- Mesures de posició no central.

- Altres paràmetres:
  - Asimetria estadística.
  - Coeficient de Gini.
  - Curtosi.
  - Moment estàndard.
  - Moment centrat.
  - Nombre índex.
  - Proporció.
  - Taxa (matemàtiques).

- Paràmetres bidimensionals:
  - Correlació:
    - Coeficient de correlació de Pearson,
    - Coeficient de correlació de Spearman,
Població, com a concepte estadístic.
Regressió estadística.

Referències

Bibliografia

Calot, Gérard; trad. Francisco José Cano Sevilla. Curs d'estadística descriptiva. 4ª. Parainfo, 1985. ISBN 8428305633.
Férnandez Fernández, Santiago; Còrdova, Alejandro; Be Sánchez, José María. Estadística Descriptiva. 2a edició. ESIC Editorial, 2002. ISBN 8473563069.
Huff, Darrel; Geis, Irvin. How to lie with Statistics. W W Norton & co Inc, 1993. ISBN 0393310728.
Rius Díaz, Francisca. Bioestadística. Mètodes i aplicacions. 2a edició. Universitat de Màlaga, 1997. ISBN 84-7496-653-1.
Velasco Sotomayor, Gabriel; Wisniewski, Piotr Marian. Probabilitat i estadística per a enginyeria i ciències. Cengage Learning Editores, 2001, p. 185-197. ISBN 970686136 X.
Tècnics d'Administració Del Ministeri d'Economia Y Hisenda (institut Nacional d'Estadística). Grups III Y IV. Temari Específic Y Test Ebook. MAD-Eduforma, 2006. ISBN 9788466552509.

Enllaços externs

Calculadores de paràmetres estadístics:

Les tres mitjanes Calcula la mitjana aritmètica, geomètrica i harmònica d'una sèrie de 80 dades o menys.
La calculadora web descriptiva Arxivat 2009-04-06 a Wayback Machine. Calcula mitjana, moda, variància, desviació típica, coeficient de variació,coeficients de forma, índex Gini, mitja harmònica.
Calculadora estadística Incluye paràmetres bidimensionals i altrescàlculs d'utilitat en probabilitat.

Cursos complets d'estadística descriptiva:

Estadística descriptiva^{[Enllaç no actiu]}. Fet amb Moodle, per la Universitat d'Antioquia.
Bioestadística, mètodes i aplicacions Arxivat 2009-12-23 a Wayback Machine., per la Universitat de Màlaga.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]