자연과학

통계학 기초 다지기: 확률변수, 분산, 공분산 이해하기

Engivia 2025. 3. 12. 10:24

통계학 기초 다지기: 확률변수, 분산, 공분산 이해하기

통계학을 처음 접하면 가장 먼저 만나는 개념이 확률변수(Random Variable)이다.

확률변수는 이름 자체가 헷갈리기 쉬워 처음 들었을 때, 와닿기란 쉽지 않다.

 

통계학이 “내가 관심 있어 하는 일(사건)”을 “측정 가능하고 비교 가능한 방식(숫자)”으로 표현한 뒤

그 속에서 규칙이나 경향을 찾아내는 학문이라는 점을 명심하고 글을 읽으면 이해에 도움이 될 것이다.


1. 확률변수(Random Variable)란 무엇인가?

확률변수“우리가 관심을 가지는 사건의 결과”를 숫자로 표현한 것이다.

실제 세계에서 벌어지는 여러 사건

(예: 동전을 던졌을 때 나오는 결과, 주사위를 굴렸을 때 나오는 숫자, 사람의 키, 몸무게, 오늘의 기온 등)을

‘숫자’라는 공통된 언어로 나타내면, 다양한 통계적 분석을 쉽게 진행할 수 있다.

다시 말해,

확률변수란 간단히 말해 특정 사건의 결과를 숫자로 나타낸 변수이다.

처음 들을 때 가장 많이 헷갈리는 부분은 '변수'라는 말 때문이다.

사실 '변수'라기보단 '사건의 결과를 숫자로 변환한 함수'라고 보는 편이 이해하기에 좋다.

예를 들어,

  • 동전 던지기: 앞면(1), 뒷면(0)
  • 주사위 던지기: 나오는 눈의 숫자(1, 2, 3, 4, 5, 6)
  • 사람의 키, 몸무게, 오늘의 기온 등도 확률변수이다.

즉, 확률변수란 실제 세상에서 관찰 가능한 사건이나 결과를 숫자로 표현하여 분석하기 쉽게 만들어 준다.

여기서 또 하나 헷갈릴 수 있는 지점은 확률변수가 여러 개 존재할 수 있다는 점이다. 예를 들어:

  • X: 오늘의 기온
  • Y: 아이스크림 판매량

이렇게 확률변수가 두 개 이상 존재할 때 각 변수의 관계를 이해하는 것이 통계학의 핵심이다.


2. 분산(Variance)의 의미와 계산 방법

확률변수의 개념을 이해했다면, 이제 '분산'을 살펴볼 차례다. 분산이란 하나의 확률변수(X)가 평균으로부터 얼마나 흩어져 있는지를 나타내는 값이다. 다시 말해, 데이터가 평균에서 얼마나 멀리 퍼져있는지를 측정한다.

분산의 계산은 다음과 같은 순서로 이루어진다:

  • 각 데이터에서 평균을 빼서 편차를 구한다.
  • 이 편차를 제곱하여 음수를 없앤다.
  • 편차 제곱의 평균을 구한다.

수식으로 표현하면 다음과 같다:

분산(X) = (1/n) ∑(xᵢ - 평균)²

분산이 클수록 데이터가 평균에서 많이 떨어져 넓게 퍼져 있다는 뜻이고, 작을수록 평균에 가까이 모여 있다는 뜻이다.


3. 공분산(Covariance)의 등장과 필요성

분산은 한 변수(X)만 놓고 봤을 때 퍼짐 정도를 나타낸다. 그러나 현실에서 우리가 궁금한 것은 종종 두 개 이상의 변수가 서로 관련이 있는지다. 이를 위해 '공분산'이 등장한다.

공분산은 두 확률변수(X, Y)가 얼마나 함께 변화하는지를 나타내는 값이다. 수식은 다음과 같다:

공분산(X,Y) = (1/n) ∑(xᵢ - x의 평균)(yᵢ - y의 평균)

공분산이 양수이면 X가 증가할 때 Y도 증가하고, 음수이면 X가 증가할 때 Y는 감소한다. 공분산이 0이면 두 변수는 아무런 관련이 없다.

 

🔔 자주 생기는 오개념 정정

  • 공분산 자체는 X와 Y를 동등하게 다룬다. 즉, Cov(X, Y)와 Cov(Y, X)는 동일하다.
  • 하지만 선형 회귀에서는 X와 Y의 역할이 달라진다.

선형 회귀는 이미 주어진 독립변수 X의 값을 바탕으로 우리가 모르는 종속변수 Y의 값을 예측하는 과정이다. 즉, 실제로 X를 우리가 직접 변경하거나 조정하는 것이 아니라 주어진 X 값을 통해 Y를 예측하는 것이 목적이다.

정리하면,

  • 공분산(Cov): X와 Y가 동등한 관계다.
  • 선형 회귀에서는 X(독립변수) → Y(종속변수)의 방향성이 있다.

즉, 공분산 자체는 대칭적이지만 선형 회귀의 특성상 X와 Y의 역할은 비대칭적이다.

예를 들어, 기온(X)이 높아질 때 아이스크림 판매량(Y)이 증가하는지를 확인하고 싶다면, 기온과 판매량의 공분산을 확인하는 것이 필수적이다.

 


📝 4. 분산과 공분산 공식 정리 (시그마 표기)

  • 분산(Variance)
Var(X) = (1/n) ∑(xᵢ - 𝑥̄)²
       = (1/n) ∑xᵢ² - (x의 평균)²
  • 공분산(Covariance)
Cov(X,Y) = (1/n) ∑(xᵢ - x의 평균)(yᵢ - y의 평균)
         = (1/n)∑(xᵢyᵢ) - (x의 평균)(y의 평균)

이 공식을 기억해두면 앞으로 통계 분석을 더 쉽게 할 수 있다.