"정보와 엔트로피"의 두 판 사이의 차이

13번째 줄: 13번째 줄:
정보량은 배경지식에 상대적이다. 예컨대 어떤 건물에 8명의 사람이 있고 한 살인 사건의 범인이 그 안에 있다고 할 때(즉 엔트로피는 3비트), 만약 범인이 남자라는 새로운 정보는 어느 정도의 정보량을 지닐까? 만약 건물에 사는 사람이 모두 남자였다면, 그 정보의 입수에 의해 남게 되는 경우의 수는 여전히 8이고, 엔트로피를 하나도 줄이지 못하므로, 그것의 정보량은 0(=3-3)이다. 반면 건물에 사는 사람 중 절반이 남자라면, 새 정보에 의해 남는 경우의 수는 4로 줄어들고, 이때 엔트로피는 3비트에서 2비트로 1만큼 줄어든다. 즉 이 경우의 정보량은 1(=3-2)비트이다. 그런데 만약 건물에 남자가 1명뿐이라면, 범인이 남자라는 정보에 의해 남게 되는 불확실성은 완전히 제거되어, 이는 범인을 잡는 확실한 정보가 될 것이다. 이때 그 정보의 정보량은 3(=3-0)비트가 된다.  
정보량은 배경지식에 상대적이다. 예컨대 어떤 건물에 8명의 사람이 있고 한 살인 사건의 범인이 그 안에 있다고 할 때(즉 엔트로피는 3비트), 만약 범인이 남자라는 새로운 정보는 어느 정도의 정보량을 지닐까? 만약 건물에 사는 사람이 모두 남자였다면, 그 정보의 입수에 의해 남게 되는 경우의 수는 여전히 8이고, 엔트로피를 하나도 줄이지 못하므로, 그것의 정보량은 0(=3-3)이다. 반면 건물에 사는 사람 중 절반이 남자라면, 새 정보에 의해 남는 경우의 수는 4로 줄어들고, 이때 엔트로피는 3비트에서 2비트로 1만큼 줄어든다. 즉 이 경우의 정보량은 1(=3-2)비트이다. 그런데 만약 건물에 남자가 1명뿐이라면, 범인이 남자라는 정보에 의해 남게 되는 불확실성은 완전히 제거되어, 이는 범인을 잡는 확실한 정보가 될 것이다. 이때 그 정보의 정보량은 3(=3-0)비트가 된다.  


동일한 상황도 우리의 관심에 따라 다른 불확실성이 남게 된다. 공정한 동전 2개를 던지는 상황의 불확실성, 즉 엔트로피는 앞에서 <math>2(=\log_2 4)</math>비트로 간주됐다. 그러나 우리가 동전 2개를 던질 때 나오는 앞면의 개수에만 관심을 가진다면, 그 가능한 결과는 ‘0’, ‘1’, ‘2’의 3가지뿐이다. 그럼에도 1이 나올 가능성은 0이나 2가 나올 가능성보다 높기 때문에, 이 상황을 단지 3가지 결과가 동등하게 가능한 상황만큼 불확실하다고 보긴 어려워 보인다. 그렇다면 그 불확실성의 크기, 즉 엔트로피를 어떻게 정하면 좋을까? 이때의 엔트로피는 개별 결과가 지닌 정보량의 가중치 평균으로 해석될 수 있다. 2개의 동전을 던질 때 앞면의 개수가 0인 결과는 미시적 관점에서 <math>2(=\log_2 4 - \log_2 1 = 2-0)</math>비트의 정보량을 가지고, 1의 결과는 1비트의 정보량을, 2의 결과는 2비트의 정보량을 지닌다. 각 결과는 각각 0.25, 0.5, 0.25의 확률로 나타날 수 있으므로, 각 확률을 가중치 삼아 평균을 구하면, 공정한 동전 2개를 던질 때 나올 앞면의 개수에 대한 불확실성, 즉 정보 엔트로피는 <math>1.5 (= 2 \times 0.25 + 1 \times 0.5 + 2 \times 0.25)</math>비트가 된다. 이 값은 <math>1.58 (=\log_2 3)</math>보다는 작은 값으로, 즉 이 상황이 3개의 결과가 동등하게 불확실한 상황보다는 확실한 상황임을 말해준다.  
동일한 상황도 우리의 관심에 따라 다른 불확실성이 남게 된다. 공정한 동전 2개를 던지는 상황의 불확실성, 즉 엔트로피는 앞에서 <math>2(=\log_2 4)</math>비트로 간주됐다. 그러나 우리가 동전 2개를 던질 때 나오는 앞면의 개수에만 관심을 가진다면, 그 가능한 결과는 ‘0’, ‘1’, ‘2’의 3가지뿐이다. 그럼에도 1이 나올 가능성은 0이나 2가 나올 가능성보다 높기 때문에, 이 상황을 단지 3가지 결과가 동등하게 가능한 상황만큼 불확실하다고 보긴 어려워 보인다. 그렇다면 그 불확실성의 크기, 즉 엔트로피를 어떻게 정하면 좋을까? 이때의 엔트로피는 개별 결과가 지닌 정보량의 가중치 평균으로 해석될 수 있다. 2개의 동전을 던질 때 앞면의 개수가 0인 결과는 미시적 관점에서 '뒤뒤'만 가능하고, 따라서 이는 <math>2(=\log_2 4 - \log_2 1 = 2-0)</math>비트의 정보량을 가진다. 1의 결과는 '앞뒤'와 '뒤앞' 2가지 경우를 남기므로 <math>1(=\log_2 4 - \log_2 2 = 2-1)</math>비트의 정보량을 가지며, 2의 결과는 '앞앞' 1가지 경우마 남기므로 2비트의 정보량을 지닌다. 각 결과는 각각 0.25, 0.5, 0.25의 확률로 나타날 수 있으므로, 각 확률을 가중치 삼아 평균을 구하면, 공정한 동전 2개를 던질 때 나올 앞면의 개수에 대한 불확실성, 즉 정보 엔트로피는 <math>1.5 (= 2 \times 0.25 + 1 \times 0.5 + 2 \times 0.25)</math>비트가 된다. 이 값은 <math>1.58 (=\log_2 3)</math>보다는 작은 값으로, 즉 이 상황이 3개의 결과가 동등하게 불확실한 상황보다는 확실한 상황임을 말해준다.  


=== 메시지의 길이와 정보량 ===
=== 메시지의 길이와 정보량 ===