非線形最小二乗法

非線形最小二乗法^[1]^[2]（ひせんけいさいしょうにじょうほう、英: non-linear least squares）とは、観測データに対するカーブフィッティング手法の一つであり、最小二乗法を非線形なモデル関数に拡張したものである。非線形最小二乗法は、未知パラメータ（フィッティングパラメータ）を非線形の形で持つ関数モデルを用いて、観測データを記述すること、すなわち、データに最も当てはまりの良い^{[注 1]}フィッティングパラメータを推定することを目的とする。

最小二乗法の主張

$m$ 個のデータポイント $(x_{i},y_{i}),(x_{2},y_{2}),\dots ,(x_{m},y_{m})$ からなるセットに対し、 $n$ 個^{[注 2]}のフィッティングパラメータ $\beta _{1},\beta _{2},\dots ,\beta _{n}$ を持つモデル関数

y=f(x,{\boldsymbol {\beta }})

(1-1)

をあてはめる場合を考える。ここで、それぞれのデータ $(x_{m},y_{m})$ において、 $x_{i}$ は説明変数とし、 $y_{i}$ は目的変数とする。 ${\boldsymbol {\beta }}=(\beta _{1},\beta _{2},\dots ,\beta _{n})$ は、前記の $n$ 個のフィッティングパラメータ $\beta _{i}$ からなる実数ベクトルとする。

また、以下で定まる残差

r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})\qquad (i=1,2,\dots ,m)

(1-2)

のそれぞれは、それぞれ、期待値 $0$ 、標準偏差 $\sigma _{i}$ の正規分布に従うとする。また、話を簡単にするため、 $x_{i}$ それぞれは、いずれも誤差を持たないとする。

このとき、考えるべき問題は、もっとも当てはまりのよい ${\boldsymbol {\beta }}$ を見つけ出すことである。

非線形最小二乗法では、以下の残差平方和（より正確に言えば、標準化された残差平方和）

S({\boldsymbol {\beta }})=\sum _{i=1}^{m}{\frac {r_{i}^{2}}{2{\sigma }_{i}^{2}}}=\sum _{i=1}^{m}{\frac {({y}_{i}-f({x}_{i},{\boldsymbol {\beta }}))^{2}}{2{\sigma }_{i}^{2}}}

(1-3)

を最小とするような ${\boldsymbol {\beta }}$ が、もっとも当てはまりの良い $f$ を与えるフィッティングパラメータと考える^[1]^[2]。

この考え方は、数多ある考え方の一つに過ぎない。他の考え方としては、例えば

${\sum }_{i=1}^{n}|{r}_{i}|$ を最小にする考え方
$\sum _{i=1}^{m}(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}$ を最小とする考え方（単に各データのバラつきが同じと勝手に仮定しただけ）。
データ、モデル関数共に何らかの変換（例えば対数変換）を加えたうえで、最小二乗法をする考え方。
カイ二乗値を最小にする考え方^[3]。

等があり得る。これらの考え方で”最適”となったフッティングパラメータは、最小二乗法では”最適”とは限らない^{[注 3]}。

ただし、最小二乗法の考え方は、確率論的に尤もらしさが裏付けられている^[2]。このことについては、次節にて論じる。

最小二乗法の尤もらしさ

最小二乗法は、正規分布に対応したフィッティングパラメータの最尤推定法である^[4]。ここでは最小二乗法の尤もらしさについて、確率論を援用して検討する^[2]。すなわち、残差 ${\boldsymbol {r_{i}}}$ それぞれが、期待値 ${\boldsymbol {0}}$ 、標準偏差 ${\boldsymbol {\sigma _{i}}}$ の正規分布に従う確率変数であり、かつ、 $r_{i}$ からなる確率変数の族は、独立試行と考え、確率論を援用する。

仮定より、残差 $r_{i}$ それぞれは、いずれも、期待値 $0$ 、標準偏差 $\sigma _{i}$ の正規分布に従うため、あるデータセット $(x_{i},y_{i})$ において、その測定値が $y_{i}$ となる確率 $P(y_{i})$ は、

{P}({y}_{i})={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {{r}_{i}^{2}}{2\sigma ^{2}}}\right)

　(2-1)

となる。

今、データの測定は（数学的に言えば残差 ${\boldsymbol {r_{i}}}$ それぞれが）独立試行と考えられるため、 ${\boldsymbol {m}}$ 個のデータポイントのセット ${\boldsymbol {(x_{1},y_{1}),(x_{2},y_{2}),\ldots ,(x_{m},y_{m})}}$ が得られる確率 ${\boldsymbol {P(y_{1},\ldots ,y_{m})}}$ は、