우리는 일상에서 "독립"이라는 말을 들으면 스스로 결정하며 타인이나 외부의 영향에 의존하지 않는 상태를 떠올린다. 예를 들어, "그 사람은 독립적이다"라는 말은 그 사람이 자신의 삶이나 결정을 스스로 해나가는 모습을 의미한다. 그러나 확률론에서 "독립"은 사뭇 다른 느낌을 준다. 확률론에서 두 사건 AB가 독립이라는 것은, 한 사건의 발생 여부가 다른 사건의 발생 확률에 전혀 영향을 주지 않는 상태이다. 이는 "정보가 추가되지 않는다"는 의미로 엄밀히 정의되며, 수식으로는

P(AB)=P(A)P(B)

로 나타난다. 이 정의는 정보이론적 관점에서 상호정보 (Mutual Information)가 0임과 동치이다. 즉, AB 사이에는 서로에 대해 공유하는 추가적인 정보가 전혀 없다는 것을 의미한다.


1. 교집합과 독립의 관계

1.1 교집합의 정의

교집합은 두 사건이 동시에 발생하는 경우를 의미한다. 예를 들어, 공정한 동전 두 개를 던졌을 때

  • 첫 번째 동전이 앞면이다.
  • 두 번째 동전도 앞면이다.

이 두 사건이 동시에 일어나는 경우는 AB에 해당하며, 독립적인 동전 던지기에서는

P(AB)=0.5×0.5=0.25

이다. 여기서 "교집합"은 단순히 "동시에 발생하는 사건"을 나타내며, 독립 사건이라 하더라도 교집합의 확률은 양의 값을 가진다. 중요한 점은, 독립이라는 것은 한 사건이 발생한 사실이 다른 사건의 확률을 변화시키지 않는다는 것인데, 이때 두 사건이 동시에 일어날 확률이 그 각각의 확률의 곱으로 나타난다는 것이다. 정보이론에서는, 첫 번째 동전의 결과가 두 번째 동전의 결과에 대해 전혀 새로운 정보를 주지 않으므로, 두 사건 사이의 상호정보가 0이다.


2. 배반사건(서로 배타적 사건)과 독립의 차이

2.1 배반사건의 정의

배반사건은 두 사건이 동시에 발생할 수 없는 경우이다. 예를 들어, 한 주사위를 던졌을 때 "3이 나온다"와 "5가 나온다"는 사건은 배반적이다. 이 경우 두 사건의 교집합은 공집합이며,

P(AB)=0

이다.

2.2 배반사건과 독립의 비교

독립 사건은 한 사건이 발생한 정보가 다른 사건의 발생 확률에 아무런 영향을 주지 않는다. 반면, 배반 사건은 두 사건이 동시에 발생할 수 없으므로, 한 사건이 발생하면 다른 사건은 반드시 발생하지 않는다. 만약 P(A)>0P(B)>0인 상황에서 P(AB)=0이라면, 두 사건은 P(A)P(B)>0인 상황과 모순된다. 즉, 배반사건은 독립일 수 없다. 정보이론적 관점에서는, 배반사건은 한 사건의 발생이 다른 사건의 발생을 완전히 배제하는 강한 정보 의존성을 내포한다.


3. 조건부 독립과 그 정보이론적 해석

조건부 독립은 "추가 정보 C가 주어졌을 때, 두 사건 AB가 서로 독립이다"라는 개념이다. 수식으로는 다음과 같이 표현된다.

P(ABC)=P(AC)P(BC)

3.1 조건부 독립의 직관적 해석

조건 C가 주어지면, AB 사이에 이미 존재하는 상호 연관 (즉, 서로 영향을 미치는 요인)이 조건 C에 의해 설명된다. 따라서, 조건 C가 있을 때 남은 AB의 불확실성은 서로 독립적으로 결정된다. 정보이론에서는 이것을 조건부 상호정보 I(A;BC)=0로 해석한다. 즉, 조건 C가 모든 상호 의존성을 설명하므로, AB 사이에는 추가로 공유되는 정보가 존재하지 않음을 나타낸다.

3.2 구체적 예시: 이진 변수 모형

AB를 이진 변수로 가정한다. 예를 들어,

  • A=1은 "고득점", A=0은 "저득점"
  • B=1은 "체육 우수", B=0은 "체육 부진"
    이고, 조건 C=c (예: "학습 태도=우수")가 주어진다고 가정한다.

조건부 마진 확률을 다음과 같이 설정한다.

  • P(A=1C=c)=α, 그러므로 P(A=0C=c)=1α이다.
  • P(B=1C=c)=β, 그러므로 P(B=0C=c)=1β이다.

조건부 독립의 정의에 따라, 결합 확률은 두 마진 확률의 곱으로 결정된다.

  • P(A=1,B=1C=c)=αβ이다.
  • P(A=1,B=0C=c)=α(1β)이다.
  • P(A=0,B=1C=c)=(1α)β이다.
  • P(A=0,B=0C=c)=(1α)(1β)이다.

이를 2×2 테이블로 나타내면 다음과 같다.

  B=1 ("체육 우수") B=0 ("체육 부진") A 마진
A=1 ("고득점") αβ α(1β) α
A=0 ("저득점") (1α)β (1α)(1β) 1α
B 마진 β 1β 1

이 표는, 조건부 독립이 만족되는 모든 분포가 두 벡터 [α,,1α][β,,1β]의 외적으로 표현됨을 나타낸다. 정보이론적 관점에서는, 조건 C가 주어지면 AB 사이에 추가적으로 공유되는 정보가 0임을 의미한다.

왜 양이 "줄어드는가" (합이 1이 되는가)

각 행과 열의 합은 다음과 같이 계산된다.

  • A의 마진:
    • P(A=1C=c)=α
    • P(A=0C=c)=1α
      따라서, 두 행의 합은 α+(1α)=1이다.
  • B의 마진:
    • P(B=1C=c)=β
    • P(B=0C=c)=1β
      따라서, 두 열의 합은 β+(1β)=1이다.
  • 전체 합:
    모든 결합 확률의 합은
    αβ+α(1β)+(1α)β+(1α)(1β)
    이를 전개하면
    αβ+ααβ+(1α)β+1αβ+αβ=1
    즉, 전체 확률이 1임을 확인할 수 있다.

이러한 정규화는 확률 분포의 필수 조건으로, 모든 가능한 경우의 수(즉, 표의 모든 셀의 합)가 1이 되어야 함을 의미한다.

3.3 다양한 값에 따른 예시

예를 들어,

  • 만약 α=0.8이고 β=0.7이면,
    • P(A=1,B=1C=c)=0.8×0.7=0.56이다.
    • P(A=1,B=0C=c)=0.8×(10.7)=0.8×0.3=0.24이다.
    • P(A=0,B=1C=c)=(10.8)×0.7=0.2×0.7=0.14이다.
    • P(A=0,B=0C=c)=(10.8)×(10.7)=0.2×0.3=0.06이다.
  • 만약 α=0.9이고 β=0.6이면,
    • P(A=1,B=1C=c)=0.9×0.6=0.54이다.
    • P(A=1,B=0C=c)=0.9×(10.6)=0.9×0.4=0.36이다.
    • P(A=0,B=1C=c)=(10.9)×0.6=0.1×0.6=0.06이다.
    • P(A=0,B=0C=c)=(10.9)×(10.6)=0.1×0.4=0.04이다.

이처럼, 조건부 독립 모형에서는 주어진 조건 C 하에서 AB의 결합 확률이 오직 두 마진 확률 αβ의 곱으로 결정되며, 이 구조는 두 사건 사이에 추가 정보가 전혀 없음을 나타낸다. 정보이론적 관점에서는, 조건부 상호정보 I(A;BC)=0임과 동치이다.


4. 정보이론적 관점에서 "영향"의 의미

확률론에서 "독립"이라 함은 한 사건의 발생이 다른 사건의 발생 확률에 영향을 주지 않는다는 것을 의미한다. 즉,

P(AB)=P(A)

이다. 정보이론에서는 이를 "한 사건에 대한 정보가 다른 사건의 불확실성을 감소시키지 않는다"라고 해석한다. 상호정보 I(A;B)0이면, 한 사건에 대해 알더라도 다른 사건에 대해 얻는 새로운 정보가 전혀 없음을 나타낸다.

조건부 독립의 경우, 조건 C가 이미 모든 상호 연관성을 설명하므로, 조건 C가 주어졌을 때 AB 사이에 추가적으로 공유되는 정보가 없으며, 즉, 조건부 상호정보

I(A;BC)=0

이다. 이 수식은 "정보가 서로 영향을 주지 않는다"는 의미를 엄밀하게 나타낸다.

또한,

  • 독립 사건은 동시에 발생하는 경우(교집합)가 있을 수 있다. 단지, 그 교집합의 확률이 P(A)P(B)와 같아야 한다.
  • 배반 사건은 한 사건이 발생하면 다른 사건은 절대로 발생하지 않으므로, 교집합이 0이다. 만약 두 사건의 개별 확률이 양수인데 교집합이 0이면, 이는 한 사건의 발생이 다른 사건의 발생을 강제로 배제함을 의미한다.

정보이론적으로, 독립인 경우는 "정보가 추가되지 않는다"는 점, 배반인 경우는 "한 사건의 발생이 다른 사건의 불가능성을 확실히 알려준다"는 점에서 극명하게 구분된다.

+ Recent posts