Kolmogorov–Szmirnov-próba

A Kolmogorov–Szmirnov próba egy statisztikai teszt, ami a nem-paraméteres próbák közé tartozik. A teszt két minta eloszlásának összehasonlítására alkalmas. Egymintás t-próbát vizsgálunk vele a tapasztalati és az elméleti eloszlásfüggvény eltérésének maximuma alapján. Alkalmas arra, hogy két valószínűségi változó eloszlását összehasonlítsuk, vagy ellenőrizzük, hogy egy valószínűségi változónak csakugyan az az eloszlása, amit feltételeztünk.

A próbát Andrej Nyikolajevics Kolmogorov dolgozta ki.[1]

Magyarázata

Legyen X a vizsgált statisztika, aminek eloszlása nem ismert, de feltételezzük, hogy megegyezik az F0 eloszlással. Nullhipotézisünk tehát:

Az ellenhipotézis:

A próba a tapasztalati eloszlást hasonlítja össze az eloszlással a

tesztstatisztika segítségével, ahol sup a szuprémumot jelöli. A Glivenko–Cantelli-tétel szerint a tapasztalati eloszlásfüggvény egyenletesen tart a valódi eloszlásfüggvényhez, vagyis H0 esetén F0-hoz. H1 esetén nagyobb értékek adódnak. A tesztstatisztika független az F0 eloszlástól. Ha a tesztstatisztika értéke nagyobb mint ami a táblázatban meg van adva, a H0 hipotézis valószínűleg nem teljesül, ezért elvetjük.

Egymintás próba

Legyen X a megfigyelt valószínűségi változó, és legyenek a megfigyeléseink xi (i = 1,...,n)! Ezekből a megfigyelésekből számíthatjuk az S(xi) relatív gyakoriságokat. Az így kapott tapasztalati eloszlást hasonlítjuk össze a feltételezett eloszlással, ami az egyes értékekre az F0(xi) értékeket adja. Ha X a feltételezett eloszlásból származik, akkor a két függvény értékeinek egymás közelében kell lenniük. Tehát kiszámítjuk a

és a

abszolút különbséget minden i-re. Kiválasztjuk a dmax maximumot a két sorozat uniójából. Ha ez a dmax nagyobb, mint egy előre meghatározott dα, akkor a nullhipotézist az α szinten elvetjük.

A kritikus értékeket az n=40 mintadarabszámig tabellázzák.[2] Nagyobb mintákra a

képletet használják.

A képlet ezeket a dα értékeket adja a különböző konfidenciaintervallumokra:

α szignifikanciaszintdα
20%1,07/√n
10%1,22/√n
5%1.3581/√n
2%1,52/√n
1%1,6276/√n

Kétmintás próba

Kétmintás esetben a próbában az elméleti eloszlásfüggvényt a másik minta tapasztalati eloszlása helyettesíti:

ahol az első és a második minta tapasztalati eloszlása. A nullhipotézist szinten elvetjük, ha

A kétmintás próba működik akkor is, ha a minták elméleti eloszlása ismeretlen. Ez a próba a két eloszlást hasonlítja össze, hogy ugyanabból az elméleti eloszlásból származnak-e. A kritikus értékei szintén táblázatból olvashatók ki[3] és a későbbi publikációk a Gumbel-eloszlással is foglalkoznak.[4] A próba nem alkalmas az előtte-utána vett minták összehasonlítására.

Tulajdonságai

A Kolmogorov–Szmirnov-próba a χ²-próbával szemben kis elemszámú minták vizsgálatára is alkalmas.[5]

Mint nem paraméteres próba nagyon stabil. Eredetileg folytonos eloszlásokra készült, de alkalmas diszkrét vagy rangskálázott értékek vizsgálatára is. Ekkor azonban ritkábban lehet elvetni a nullhipotézist, mint folytonos esetben.

Nagy előnye abban áll, hogy eloszlásfüggetlen, és nem csak normális eloszlásból származó statisztikák vizsgálatára alkalmas. A próbastatisztika minden folytonos eloszlásra ugyanazt az eloszlást követi, emiatt széles körben használható. Hátránya, hogy kicsi az ereje. A Lilliefors-próba a Kolmogorov–Szmirnov-próba egy erősebb változata csak normális eloszlásokra. Lehetséges alternatívái a Cramér–von Mises-teszt, ami egy és két mintás esetre is alkalmas, vagy az Anderson–Darling-próba csak az egymintás esetre.

Ha F(x) függ az Xi adatoktól, akkor az elméleti háttér által megadott módott generált kritikus értékek érvénytelenek. Néhány ilyen esetre készültek táblázatok, máskor azonban a Monte Carlo-módszert használják. Léteznek táblázatok normális, exponenciális,[3] és Gumbel-eloszláshoz.[4]

A Kolmogorov–Szmirnov-próba megfordítható F(x) konfidenciahatárainak megállapításához. Ha Dα a próbastatisztika kritikus értéke úgy, hogy P(Dn > Dα) = α,akkor az F0(x) körüli ±Dα szélességű sáv 1 − α valószínűséggel tartalmazza a teljes F(x)-et.

Példa

A példa elméleti és tapasztalati eloszlásának összehasonlítása: balra a hisztogram a normális eloszlás sűrűségfüggvényével, jobbra az elméleti és a tapasztalati eloszlásfüggvény

Egy értékes parfümöket gyártó vállalatnál a minőségbiztosítás keretében ellenőrizték az egy flakonba jutóparfüm mennyiségét. A minta elemszáma n = 8, és a vizsgált mennyiség az egy flakonba töltött parfüm mennyisége milliliterben, amit a továbbiakban x jelöl. A várt eloszlás az és paraméterű normális eloszlás. Azt vizsgáljuk, hogy az eloszlás megfelel-e ennek. Tehát a nullhipotézis:

ahol Φ a normális eloszlás jele. A vizsgálatot az α = 0,05 szignifikanciaszinten végezték.

A számított értékek:

ixiS(xi)Fo(xi)S(xi-1)-Fo(xi)S(xi)-Fo(xi)
19,410,1250,056-0,0560,069
29,920,2500,140-0,0150,110
311,550,3750,709-0,459-0,334
411,600,5000,726-0,351-0,226
511,730,6250,767-0,267-0,142
612,000,7500,841-0,216-0,091
712,060,8750,855-0,1050,020
813,021,0000,978-0,1030,022

ahol xi az i-edik megfigyelés, S(xi) a számlálófüggvény értéke, és F0(xi) a normális eloszlásfüggvény értéke az xi helyen. A többi oszlop a differenciákat mutatja. Az mintamérethez és az szignifikanciaszinthez a 0,457 kritikus érték tartozik,[2] tehát a Kolmogorov–Szmirnov-próba szerint a nullhipotézist elvetjük. Mivel azonban a 0,459 érték ehhez nagyon közeli, ezért nem olyan valószínűtlen, hogy a nullhipotézis nem igaz, de az alternatív hipotézis valószínűsége nagyobb. Ezért valószínűbb, hogy az eloszlás nem és paraméterű normális eloszlás, hanem vagy mások a paraméterei, vagy nem normális az eloszlás.

Elméleti háttere

A Kolmogorov-eloszlás a

véletlen valószínűségi változó eloszlása, ahol B(t) a szimmetrikus bolyongás. K kumulatív eloszlása[6]

A Kolmogorov–Szmirnov-próba statisztikát és a hozzá tartozó aszimptotikus eloszlást Andrej Kolmogorov publikálta.[1] Véges minták tesztstatisztikájának eloszlására rekurzív alakban is elérhető. A valószínűségek konkrét értékeit először Nyikolaj Vasziljevics Szmirnov publikálta, táblázatos formában.[7]

A nullhipotézis teljesülése esetén

ahol F(x) a nullhipotézisben megadott elméleti eloszlásfüggvény. Ha F folytonos, akkor a Kolmogorov-eloszláshoz tart, függetlenül F-től, ahogy a Kolmogorov-tétel állítja.

Az illeszkedés jóságát a kritikus érték adja meg. Az szinten a nullhipotézist elvetjük, ha

ahol Kα innen számítható:

A teszt aszimptotikus ereje 1.

Magasabb dimenzióban

Magasabb dimenziókra a próbát módosítani kell, mivel a több dimenziós eloszlásfüggvények közötti különbség nem egyezik meg a komplementer eloszlásfüggvények különbségével. Így a maximális különbség függ attól, hogy például két változó esetén az vagy az vagy a fennmaradó két lehetőség egyikét használják-e. Egyedül azt követelik meg, hogy az eredmény független legyen ettől a választástól.

Egy másik megközelítésben a minták összes párosítását számításba veszik, és tekintik az így előállt Kolmogorov–Szmirnov-statisztikákat. d dimenzióban 2d−1 ilyen független rendezés van. Az egyik változatot Peacock,[8] egy másikat Fasano & Franceschini[9] vezetett be.[10] A kritikus értéket szimulációval állítják elő, az együttes eloszlás összefüggőségeit figyelembe véve.

Alkalmazásai

A próbát többek között használják:

  • Véletlengenerátorok ellenőrzésére, hogy az általuk generált számok a megfelelő eloszlásúak-e, például egyenletes eloszlást követnek-e.
  • Egyes statisztikai eljárások csak közelítőleg normális eloszlású valószínűségi változókra használhatók, ezért fontos azt ellenőrizni, hogy az adott minta egy ilyen eloszlásból származik-e.

Jegyzetek

Források