非線形最小二乗法 [1] [2] (ひせんけいさいしょうにじょうほう、英 : non-linear least squares )とは、観測データに対するカーブフィッティング 手法の一つであり、最小二乗法 を非線形なモデル関数に拡張したものである。非線形最小二乗法は、未知パラメータ(フィッティングパラメータ)を非線形の形で持つ関数モデルを用いて、観測データを記述すること、すなわち、データに最も当てはまりの良い[注 1] フィッティングパラメータを推定することを目的とする。
最小二乗法の主張 m {\displaystyle m} 個のデータポイント ( x i , y i ) , ( x 2 , y 2 ) , … , ( x m , y m ) {\displaystyle (x_{i},y_{i}),(x_{2},y_{2}),\dots ,(x_{m},y_{m})} からなるセットに対し、 n {\displaystyle n} 個[注 2] のフィッティングパラメータ β 1 , β 2 , … , β n {\displaystyle \beta _{1},\beta _{2},\dots ,\beta _{n}} を持つモデル関数
y = f ( x , β ) {\displaystyle y=f(x,{\boldsymbol {\beta }})} (1-1)をあてはめる場合を考える。ここで、それぞれのデータ ( x m , y m ) {\displaystyle (x_{m},y_{m})} において、 x i {\displaystyle x_{i}} は説明変数 とし、 y i {\displaystyle y_{i}} は目的変数とする。 β = ( β 1 , β 2 , … , β n ) {\displaystyle {\boldsymbol {\beta }}=(\beta _{1},\beta _{2},\dots ,\beta _{n})} は、前記の n {\displaystyle n} 個のフィッティングパラメータ β i {\displaystyle \beta _{i}} からなる実数ベクトル とする。
また、以下で定まる残差
r i = y i − f ( x i , β ) ( i = 1 , 2 , … , m ) {\displaystyle r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})\qquad (i=1,2,\dots ,m)} (1-2)のそれぞれは、それぞれ、期待値 0 {\displaystyle 0} 、標準偏差 σ i {\displaystyle \sigma _{i}} の正規分布 に従うとする。また、話を簡単にするため、 x i {\displaystyle x_{i}} それぞれは、いずれも誤差を持たないとする。
このとき、考えるべき問題は、もっとも当てはまりのよい β {\displaystyle {\boldsymbol {\beta }}} を見つけ出すことである。
非線形最小二乗法では、以下の残差平方和 (より正確に言えば、標準化された残差平方和)
S ( β ) = ∑ i = 1 m r i 2 2 σ i 2 = ∑ i = 1 m ( y i − f ( x i , β ) ) 2 2 σ i 2 {\displaystyle S({\boldsymbol {\beta }})=\sum _{i=1}^{m}{\frac {r_{i}^{2}}{2{\sigma }_{i}^{2}}}=\sum _{i=1}^{m}{\frac {({y}_{i}-f({x}_{i},{\boldsymbol {\beta }}))^{2}}{2{\sigma }_{i}^{2}}}} (1-3)を最小とするような β {\displaystyle {\boldsymbol {\beta }}} が、もっとも当てはまりの良い f {\displaystyle f} を与えるフィッティングパラメータと考える[1] [2] 。
この考え方は、数多ある考え方の一つに過ぎない。他の考え方としては、例えば
∑ i = 1 n | r i | {\displaystyle {\sum }_{i=1}^{n}|{r}_{i}|} を最小にする考え方 ∑ i = 1 m ( y i − f ( x i , β ) ) 2 {\displaystyle \sum _{i=1}^{m}(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}} を最小とする考え方(単に各データのバラつきが同じと勝手に仮定しただけ)。データ、モデル関数共に何らかの変換(例えば対数変換)を加えたうえで、最小二乗法をする考え方。 カイ二乗値を最小にする考え方[3] 。 等があり得る。これらの考え方で”最適”となったフッティングパラメータは、最小二乗法では”最適”とは限らない[注 3] 。
ただし、最小二乗法の考え方は、確率論 的に尤もらしさが裏付けられている[2] 。このことについては、次節にて論じる。
最小二乗法の尤もらしさ 最小二乗法は、正規分布に対応したフィッティングパラメータの最尤推定法である[4] 。ここでは最小二乗法の尤もらしさについて、確率論 を援用して検討する[2] 。すなわち、残差 r i {\displaystyle {\boldsymbol {r_{i}}}} それぞれが、期待値 0 {\displaystyle {\boldsymbol {0}}} 、標準偏差 σ i {\displaystyle {\boldsymbol {\sigma _{i}}}} の正規分布 に従う確率変数 であり、かつ、 r i {\displaystyle r_{i}} からなる確率変数の族は、独立試行と考え、確率論を援用する。
仮定より、残差 r i {\displaystyle r_{i}} それぞれは、いずれも、期待値 0 {\displaystyle 0} 、標準偏差 σ i {\displaystyle \sigma _{i}} の正規分布 に従うため、あるデータセット ( x i , y i ) {\displaystyle (x_{i},y_{i})} において、その測定値が y i {\displaystyle y_{i}} となる確率 P ( y i ) {\displaystyle P(y_{i})} は、
P ( y i ) = 1 σ 2 π exp ( − r i 2 2 σ 2 ) {\displaystyle {P}({y}_{i})={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {{r}_{i}^{2}}{2\sigma ^{2}}}\right)} (2-1)となる。
今、データの測定は(数学的に言えば残差 r i {\displaystyle {\boldsymbol {r_{i}}}} それぞれが)独立試行と考えられるため、 m {\displaystyle {\boldsymbol {m}}} 個のデータポイントのセット ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) {\displaystyle {\boldsymbol {(x_{1},y_{1}),(x_{2},y_{2}),\ldots ,(x_{m},y_{m})}}} が得られる確率 P ( y 1 , … , y m ) {\displaystyle {\boldsymbol {P(y_{1},\ldots ,y_{m})}}} は、
P ( y 1 , … , y m ) = ∏ i = 1 m P ( y i ) = ∏ i = 1 m 1 σ 2 π exp ( − r i 2 2 σ 2 ) = 1 ( σ 2 π ) m exp ( ∑ i = 1 m ( − ( y i − f ( x i , β ) ) 2 2 σ 2 ) ) {\displaystyle {\begin{aligned}P(y_{1},\dots ,y_{m})&=\prod _{i=1}^{m}P(y_{i})\\&=\prod _{i=1}^{m}{\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {r_{i}^{2}}{2\sigma ^{2}}}\right)\\&={\frac {1}{(\sigma {\sqrt {2\pi }})^{m}}}\exp \left(\sum _{i=1}^{m}\left(-{\frac {(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}}{2\sigma ^{2}}}\right)\right)\end{aligned}}} (2-2)となる。ここで、 Π i = 1 n {\displaystyle {\Pi }_{i=1}^{n}} は、連乗積 を表す。
上式において、正規分布の単峰性より、確率 P ( y i , … , y m ) {\displaystyle P(y_{i},\ldots ,y_{m})} は、
S ( β ) = ∑ i = 1 m ( y i − f ( x i , β ) ) 2 2 σ 2 {\displaystyle S(\beta )=\sum _{i=1}^{m}{\frac {(y_{i}-f(x_{i},{\boldsymbol {\beta }}))^{2}}{2\sigma ^{2}}}} (2-3)が最小(最も 0 {\displaystyle 0} に近いとき)において、最大(最尤)となる。すなわち、最尤法 の教えるところによれば、このとき、もっとも当てはまりがよいと考えるのが妥当だろうということになる。
勾配方程式への帰着 数値解法 線形の最小二乗法では、式(3-2)は未知パラメータ β {\displaystyle {\boldsymbol {\beta }}} についての連立一次方程式 になるため、行列 を用いて容易に解くことができるが、非線形最小二乗法では反復解法 を用いる必要がある。解法には以下のような方法が知られている[4] 。
脚注・参考文献