Twierdzenie Gaussa-Markowa

twierdzenie statystyki matematycznej

Twierdzenie Gaussa-Markowa – twierdzenie statystyki mówiące, że estymator najmniejszych kwadratów jest (o ile jest on stosowalny) najlepszym (tj. mającym najmniejszą wariancję) estymatorem spośród liniowych, nieobciążonych estymatorów liniowego modelu regresji[1].

Twierdzenie

Niech dany będzie model regresji liniowej, zapisany w notacji macierzowej:

tj.

gdzie są współczynnikami modelu, zmiennymi objaśniającymi natomiast są zmiennymi losowymi błędu (nazywanymi czasami szumem). W przypadku modelu regresji ze stałą, wprowadza się dodatkowy współczynnik oraz odpowiadającą mu kolumnę jedynek: dla wszelkich

Założenia twierdzenia Gaussa-Markowa:

dla wszelkich
  • szumy są parami nieskorelowane:

Liniowy estymator jest po prostu kombinacją liniową

w której współczynniki nie zależą od ale mogą zależeć od Z definicji, estymator jest nieobciążony, gdy

Niech

będzie kombinacją liniową współczynników. Wówczas błąd średniokwadratowy odpowiadający takiemu oszacowaniu wynosi

Z uwagi na to, że rozważane tu estymatory są nieobciążone, błąd średniokwadratowy jest równy wariancji rzeczonej kombinacji liniowej. Najlepszym nieobciążonym estymatorem (ang. BLUE) jest wektor o parametrach którego błąd średniokwadratowy jest najmniejszy spośród wszystkich wektorów będących kombinacjami liniowymi parametrów. Równoważnie, macierz

jest nieujemnie określona dla każdego liniowego, nieobciążonego estymatora (zob. uwagi o dowodzie). Estymator najmniejszych kwadratów (ang. OLS) to funkcja

zależna od oraz (gdzie oznacza transpozycję macierzy ). Funkcja ta minimalizuje sumę kwadratów błędów przypadkowych, tj.

Twierdzenie Gaussa-Markowa orzeka, że

estymator średniokwadraowy (OLS) jest najlepszym nieobciążonym liniowym estymatorem (BLUE)[2].

Dowód

Niech będzie dowolnym liniowym etymatorem gdzie a jest niezerową macierzą. Zakładając nieobciążoność, najlepszy estymator nieobciążony to estymator o minimalnej wariancji. By zakończyć dowód należy wykazać, że wariancja nie jest mniejsza od wariancji tj. estymatora najmniejszych kwadratów.

Oznacza to, że estymator jest nieobciążony wtedy i tylko wtedy, gdy W tym wypadku:

Macierz DD' jest nieujemnie określona, dominuje zatem poprzez macierz nieujemnie określoną[3] (zob. uwagi o dowodzie).

Uwaga o dowodzie

Powyższy dowód opiera się na równoważności warunku

z tym, że najlepszym (tj. mającym minimalną wariancję) estymatorem jest Zależność taka istotnie zachodzi. Niech będzie dowolnym liniowym, nieobciążonym estymatorem Wówczas

W tym wypadku, równość zachodzi wtedy i tylko wtedy, gdy Zachodzi wówczas

Oznacza to, że równość zachodzi wtedy i tylko wtedy, gdy

co implikuje jedyność estymatora najmniejszych kwadratów (OLS) jako estymatora BLUE[4].

Przypisy

Bibliografia

  • N.H. Bingham, J.M. Fry, Regression: Linear Models in Statistics, Springer Undergraduate Mathematics Series, 2010.
  • A. Sen, M. Srivastava, Regression Analysis Theory, Methods, and Applications, Springer-Verlag, New York, 1990.