분산

확률론과 통계학에서 어떤 확률변수의 분산(分散, 영어: variance, $\operatorname {Var}$ )은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.^[1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균이나 분산의 제곱근인 표준편차와 보다 밀접한 관련이 있다.

분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모분산(population variance) σ²은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

표본분산(sample variance) s²은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.

정의

확률변수 $X$ 의 분산은 $X$ 의 기댓값 $\mu =\operatorname {E} [X]$ 로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.

\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]

이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다.

${\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}$

따라서 확률변수 $X$ 의 분산은 $X$ 제곱의 기댓값에서 $X$ 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.

이 정의는 이산확률변수, 연속확률변수, 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산을 사용해 다음과 같이 나타내기도 한다.

\operatorname {Var} (X)=\operatorname {Cov} (X,X)

분산은 보통 $\operatorname {var} (X)$ 또는 $\sigma _{X}^{2}$ , 혹은 간단히 $\sigma ^{2}\,$ 으로 표현한다. $\sigma \,$ 는 표준편차를 가리킨다.^[1]

이산확률변수에서

만일 확률 변수 $X$ 의 생성 원리가 $x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots ,x_{n}\mapsto p_{n}$ 의 확률 질량 함수를 따르는 이산확률분포라면, 분산은 다음과 같이 정의할 수 있다.

\operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}

이와 다음의 식은 동치이다.

\operatorname {Var} (X)=\left(\sum _{i=1}^{n}p_{i}x_{i}^{2}\right)-\mu ^{2}

이 때 $\mu =\sum _{i=1}^{n}p_{i}x_{i}$ 는 기댓값을 의미한다. 이 가중 산술 평균에 사용되는 가중치 $p$ 의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다.

$n$ 번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다.

\operatorname {Var} (X)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}\right)-\mu ^{2}

여기서 $\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ 는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.^[2]

\operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}(x_{i}-x_{j})^{2}.

완전연속확률변수에서

만일 확률 변수 $X$ 의 생성 원리가 확률 밀도 함수 $f(x)$ 와 누적 분포 함수 $F(x)$ 를 따르는 연속확률분포라면, 분산은 다음과 같이 구할 수 있다.

{\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2}\end{aligned}}

이는 확률 밀도 함수 $f(x)$ 를 이용해 다음과 같이 적을 수 있다.

\operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2}

여기서 $\mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x)$ 는 확률 변수 $X$ 의 기댓값이다.

여기서 $dx$ 에 대한 적분은 르베그 적분을, $dF(x)$ 에 대한 적분은 르베그-스틸티어스 적분을 의미한다.

만일 $x^{2}f(x)$ 가 모든 폐구간 $[a,b]\subset \mathbb {R}$ 에서 리만 적분 가능한 함수라면 분산은 이상 적분을 통해 다음과 같이 서술할 수 있다.

\operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2}

성질

기본적인 성질

어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.

\operatorname {Var} (X)\geq 0

상수의 분산은 0의 값을 가진다.

\operatorname {Var} (a)=0

이 역도 성립하여, 만일 어떤 확률변수 $X$ 에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.

\operatorname {Var} (X)=0\iff \exists a:P(X=a)=1

정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b만큼 이동해 X + b가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a를 곱하면 분산은 a²배가 된다. 식으로 쓰면 다음과 같다.

\operatorname {Var} (aX+b)=a^{2}\operatorname {Var} (X)

두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다.

\operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y)

이 때 $\operatorname {Cov} (X,Y)$ 는 $X$ 와 $Y$ 의 공분산을 나타낸다. 이를 $N$ 개의 확률변수 $\{X_{1},\dots ,X_{N}\}$ 의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.

{\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+\sum _{i\not =j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}

만일 확률 변수 $X_{1},\dots ,X_{N}$ 가 서로 비상관관계라면 다음의 성질을 만족한다.

\operatorname {Cov} (X_{i},X_{j})=0\ ,\ \forall \ (i\neq j)

이는 곧 다음을 의미한다.

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {Var} (X_{i})

상호 독립적인 확률변수들은 항상 비상관관계에 놓여있기 때문에 위의 식은 확률 변수 $X_{1},\dots ,X_{n}$ 가 서로 독립적인 경우에도 적용 가능하다. 이처럼 독립적인 확률 변수의 합의 분산이 각각의 분산의 합과 같다는 성질 때문에 분포를 표현할 때 분산을 유용하게 사용할 수 있다.

분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차를 주로 쓴다.

통계적 추정

표본 분산

모집단의 분산은 $\sigma ^{2}$ 로 나타내고, 표본의 분산은 $s^{2}$ 로 나타낸다. $s^{2}$ 은 모집단 분산의 추정치라고 할 수 있다. 표본 내의 어떤 변인 Y가 가지는 모집단 분산의 추정치인 표본 분산 $s^{2}$ 는 다음과 같다.

s^{2}={\frac {\Sigma (y-{\overline {y}})^{2}}{n-1}}={\frac {SS}{df}}

s^{2}

: 표본 분산

y

: 변인

{\overline {y}}

: 표본의 평균

n

: 표본의 크기

SS

: 편차들의 제곱합

df

: 자유도

분모를 n-1로 나누는 이유는 분산을 계산할 때 모평균이 아닌 표본 평균을 사용했기 때문에 모집단의 편의 추정량(biased estimator)이 되므로, 분산이 불편 추정량(unbiased estimator)이 되도록 하기 위해서이다.^[1]

모 분산

\sigma ^{2}={{\sum (Y_{i}-{\overline {\mu }})^{2}} \over {N}}

\sigma ^{2}

모집단의 분산(모 분산)

Y

: 변인

{\overline {\mu }}

: 모집단의 평균

N

: 표본의 크기

표준 편차

모집단의 모분산 $\sigma ^{2}$ 으로부터 편차 단위를 얻기위해 제곱근함으로써 모집단 표준 편차 $\sigma$ 를 얻을수있다.

{\sqrt {\sigma ^{2}}}=\sigma

표본집단의 표본분산 $s^{2}$ 으로부터 편차 단위를 얻기위해 제곱근함으로써 표본 표준 편차 $s$ 를 얻을수있다.

{\sqrt {s^{2}}}=s

컴퓨팅

컴퓨터 프로그램의 대표적인 경우에서 스프레드시트는 var() 함수로 결과값을 기본적으로는 간단히 처리할 수 있다.

같이 보기

위키미디어 공용에 관련된
미디어 분류가 있습니다.

분산

각주

[1]

[2]

Search

분산

목차

정의