확률론 과 통계학 에서 어떤 확률변수 의 분산 (分散, 영어 : variance , Var {\displaystyle \operatorname {Var} } )은 그 확률변수가 기댓값 으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.[1] 기댓값은 확률변수의 위치를 나타내고 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다. 분산은 표본 평균 이나 분산의 제곱근 인 표준편차 와 보다 밀접한 관련이 있다.
평균은 같지만 분산은 다른 두 확률 분포. 빨간색 분포는 100의 평균값과 100의 분산값을 가지고, 파란색 분포는 100의 확률값과 2500의 분산값을 가진다. SD는 표준편차를 의미한다. 분산 (variance)은 관측값에서 평균 을 뺀 값을 제곱 하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
모분산 (population variance) σ2 은 모집단 의 분산이다. 관측값에서 모 평균 을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
표본분산 (sample variance) s2 은 표본 의 분산이다. 관측값에서 표본 평균 을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
정의 확률변수 X {\displaystyle X} 의 분산은 X {\displaystyle X} 의 기댓값 μ = E [ X ] {\displaystyle \mu =\operatorname {E} [X]} 로부터 확률변수가 얼마나 떨어져있는지 그 정도를 제곱한 것의 기댓값과 같다. 이를 수식으로 나타내면 다음과 같다.
Var ( X ) = E [ ( X − μ ) 2 ] {\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]} 이를 기댓값에 대해 확장해보면 다음과 같이 정리할 수 있다.
Var ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ X 2 − 2 X E [ X ] + E [ X ] 2 ] = E [ X 2 ] − 2 E [ X ] E [ X ] + E [ X ] 2 = E [ X 2 ] − E [ X ] 2 {\displaystyle {\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}}
따라서 확률변수 X {\displaystyle X} 의 분산은 X {\displaystyle X} 제곱의 기댓값에서 X {\displaystyle X} 기댓값의 제곱을 뺀 것과 같다. 이 방식을 통해 어떤 확률변수의 분산을 간단하게 계산할 수 있다. 다만 부동소수점 연산에서는 이러한 방식을 사용하면 정확한 값을 얻지 못할 수도 있다.
이 정의는 이산확률변수 , 연속확률변수, 칸토어 분포 등 모든 꼴의 확률분포에 적용된다. 분산은 공분산 을 사용해 다음과 같이 나타내기도 한다.
Var ( X ) = Cov ( X , X ) {\displaystyle \operatorname {Var} (X)=\operatorname {Cov} (X,X)} 분산은 보통 var ( X ) {\displaystyle \operatorname {var} (X)} 또는 σ X 2 {\displaystyle \sigma _{X}^{2}} , 혹은 간단히 σ 2 {\displaystyle \sigma ^{2}\,} 으로 표현한다. σ {\displaystyle \sigma \,} 는 표준편차 를 가리킨다.[1]
이산확률변수에서 만일 확률 변수 X {\displaystyle X} 의 생성 원리가 x 1 ↦ p 1 , x 2 ↦ p 2 , … , x n ↦ p n {\displaystyle x_{1}\mapsto p_{1},x_{2}\mapsto p_{2},\ldots ,x_{n}\mapsto p_{n}} 의 확률 질량 함수 를 따르는 이산확률분포 라면, 분산은 다음과 같이 정의할 수 있다.
Var ( X ) = ∑ i = 1 n p i ⋅ ( x i − μ ) 2 {\displaystyle \operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}} 이와 다음의 식은 동치이다.
Var ( X ) = ( ∑ i = 1 n p i x i 2 ) − μ 2 {\displaystyle \operatorname {Var} (X)=\left(\sum _{i=1}^{n}p_{i}x_{i}^{2}\right)-\mu ^{2}} 이 때 μ = ∑ i = 1 n p i x i {\displaystyle \mu =\sum _{i=1}^{n}p_{i}x_{i}} 는 기댓값을 의미한다. 이 가중 산술 평균 에 사용되는 가중치 p 의 합이 1이 아니라고 한다면, 각 가중치를 총 가중치 합으로 나누어 확률과 같은 성격을 가지게 조정해야 한다.
n {\displaystyle n} 번의 동일한 측정을 통해 얻은 데이터에서 분산은 다음과 같이 나타낼 수 있다.
Var ( X ) = 1 n ∑ i = 1 n ( x i − μ ) 2 = ( 1 n ∑ i = 1 n x i 2 ) − μ 2 {\displaystyle \operatorname {Var} (X)={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}\right)-\mu ^{2}} 여기서 μ = 1 n ∑ i = 1 n x i {\displaystyle \mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} 는 평균값을 의미한다. 이를 풀어서 쓰면 다음과 같다.[2]
Var ( X ) = 1 n 2 ∑ i = 1 n ∑ j = 1 n 1 2 ( x i − x j ) 2 = 1 n 2 ∑ i ∑ j > i ( x i − x j ) 2 . {\displaystyle \operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}={\frac {1}{n^{2}}}\sum _{i}\sum _{j>i}(x_{i}-x_{j})^{2}.} 완전연속확률변수에서 만일 확률 변수 X {\displaystyle X} 의 생성 원리가 확률 밀도 함수 f ( x ) {\displaystyle f(x)} 와 누적 분포 함수 F ( x ) {\displaystyle F(x)} 를 따르는 연속확률분포 라면, 분산은 다음과 같이 구할 수 있다.
Var ( X ) = σ 2 = ∫ R ( x − μ ) 2 f ( x ) d x = ∫ R x 2 f ( x ) d x − 2 μ ∫ R x f ( x ) d x + μ 2 ∫ R f ( x ) d x = ∫ R x 2 d F ( x ) − 2 μ ∫ R x d F ( x ) + μ 2 ∫ R d F ( x ) = ∫ R x 2 d F ( x ) − 2 μ ⋅ μ + μ 2 ⋅ 1 = ∫ R x 2 d F ( x ) − μ 2 {\displaystyle {\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2}\end{aligned}}} 이는 확률 밀도 함수 f ( x ) {\displaystyle f(x)} 를 이용해 다음과 같이 적을 수 있다.
Var ( X ) = ∫ R x 2 f ( x ) d x − μ 2 {\displaystyle \operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2}} 여기서 μ = ∫ R x f ( x ) d x = ∫ R x d F ( x ) {\displaystyle \mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x)} 는 확률 변수 X {\displaystyle X} 의 기댓값이다.
여기서 d x {\displaystyle dx} 에 대한 적분은 르베그 적분 을, d F ( x ) {\displaystyle dF(x)} 에 대한 적분은 르베그-스틸티어스 적분 을 의미한다.
만일 x 2 f ( x ) {\displaystyle x^{2}f(x)} 가 모든 폐구간 [ a , b ] ⊂ R {\displaystyle [a,b]\subset \mathbb {R} } 에서 리만 적분 가능한 함수라면 분산은 이상 적분 을 통해 다음과 같이 서술할 수 있다.
Var ( X ) = ∫ − ∞ + ∞ x 2 f ( x ) d x − μ 2 {\displaystyle \operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2}} 성질 기본적인 성질 어떤 실수의 제곱은 0 이상이므로 분산은 항상 0 이상의 값을 가진다.
Var ( X ) ≥ 0 {\displaystyle \operatorname {Var} (X)\geq 0} 상수의 분산은 0의 값을 가진다.
Var ( a ) = 0 {\displaystyle \operatorname {Var} (a)=0} 이 역도 성립하여, 만일 어떤 확률변수 X {\displaystyle X} 에 해당하는 분산값이 0이라면 그 확률 변수는 늘 상숫값을 출력한다.
Var ( X ) = 0 ⟺ ∃ a : P ( X = a ) = 1 {\displaystyle \operatorname {Var} (X)=0\iff \exists a:P(X=a)=1} 정의에 의해 분산이 평균값 μ에 대해 독립변수라는 것은 쉽게 알 수 있다. 즉, 전체 집단의 값이 b 만큼 이동해 X + b 가 되어도 전체 집단의 분산은 변하지 않는다. 그러나 전체 집단에 같은 값 a 를 곱하면 분산은 a 2 배가 된다. 식으로 쓰면 다음과 같다.
Var ( a X + b ) = a 2 Var ( X ) {\displaystyle \operatorname {Var} (aX+b)=a^{2}\operatorname {Var} (X)} 두 확률변수를 더하여 만든 새로운 확률 변수의 분산은 다음과 같이 나타낼 수 있다.
Var ( a X + b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2 a b Cov ( X , Y ) {\displaystyle \operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y)} 이 때 Cov ( X , Y ) {\displaystyle \operatorname {Cov} (X,Y)} 는 X 와 Y 의 공분산 을 나타낸다. 이를 N 개의 확률변수 { X 1 , … , X N } {\displaystyle \{X_{1},\dots ,X_{N}\}} 의 경우에 대해 일반화하면 다음과 같이 쓸 수 있다.
Var ( ∑ i = 1 N a i X i ) = ∑ i , j = 1 N a i a j Cov ( X i , X j ) = ∑ i = 1 N a i 2 Var ( X i ) + ∑ i ≠ j a i a j Cov ( X i , X j ) = ∑ i = 1 N a i 2 Var ( X i ) + 2 ∑ 1 ≤ i < j ≤ N a i a j Cov ( X i , X j ) . {\displaystyle {\begin{aligned}\operatorname {Var} \left(\sum _{i=1}^{N}a_{i}X_{i}\right)&=\sum _{i,j=1}^{N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+\sum _{i\not =j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\&=\sum _{i=1}^{N}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum _{1\leq i<j\leq N}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j}).\end{aligned}}} 만일 확률 변수 X 1 , … , X N {\displaystyle X_{1},\dots ,X_{N}} 가 서로 비상관 관계라면 다음의 성질을 만족한다.
Cov ( X i , X j ) = 0 , ∀ ( i ≠ j ) {\displaystyle \operatorname {Cov} (X_{i},X_{j})=0\ ,\ \forall \ (i\neq j)} 이는 곧 다음을 의미한다.
Var ( ∑ i = 1 N X i ) = ∑ i = 1 N Var ( X i ) {\displaystyle \operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i=1}^{N}\operatorname {Var} (X_{i})} 상호 독립적인 확률변수들은 항상 비상관관계에 놓여있기 때문에 위의 식은 확률 변수 X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}} 가 서로 독립적인 경우에도 적용 가능하다. 이처럼 독립적인 확률 변수의 합의 분산이 각각의 분산의 합과 같다는 성질 때문에 분포를 표현할 때 분산을 유용하게 사용할 수 있다.
분산의 단위는 확률변수를 나타내는 데 사용된 단위의 제곱이 되어야 한다. 예를 들면 센티미터로 잰 높이 집단의 분산은 제곱센티미터가 될 것이다. 이것은 여러 가지 불편을 유발하므로 많은 통계학자들은 집단과 같은 단위를 사용하는 표준편차 를 주로 쓴다.
통계적 추정 모 분산 σ 2 = ∑ ( Y i − μ ¯ ) 2 N {\displaystyle \sigma ^{2}={{\sum (Y_{i}-{\overline {\mu }})^{2}} \over {N}}} σ 2 {\displaystyle \sigma ^{2}} 모집단의 분산(모 분산) Y {\displaystyle Y} : 변인 μ ¯ {\displaystyle {\overline {\mu }}} : 모집단의 평균 N {\displaystyle N} : 표본의 크기표준 편차 컴퓨팅 컴퓨터 프로그램의 대표적인 경우에서 스프레드시트 는 var() 함수로 결과값을 기본적으로는 간단히 처리할 수 있다.
같이 보기 각주