"정보와 엔트로피"의 두 판 사이의 차이

둘러보기로 가기 검색하러 가기
8번째 줄: 8번째 줄:
우리는 거시 상태에 대응되는 미시 상태의 수 를 계에 대한 불확실성의 척도로 이해할 수도 있다. 예컨대 2개의 동전을 던질 때, 앞면의 개수가 2개라는 정보를 획득하면 각각의 동전이 어떤 상태인지 정확히 특정할 수 있지만, 앞면의 개수가 1개라는 정보만으로는 각 동전의 상태를 완벽하게 알 수 없다. 즉 W가 1인 거시 상태에 대해 우리는 그 미시 상태를 확실하게 알 수 있지만, W가 커질수록 그 계의 미시 상태는 불확실해진다. 섀넌은 W의 이러한 특성을 활용하여 정보 엔트로피라는 개념을 제안한다.  
우리는 거시 상태에 대응되는 미시 상태의 수 를 계에 대한 불확실성의 척도로 이해할 수도 있다. 예컨대 2개의 동전을 던질 때, 앞면의 개수가 2개라는 정보를 획득하면 각각의 동전이 어떤 상태인지 정확히 특정할 수 있지만, 앞면의 개수가 1개라는 정보만으로는 각 동전의 상태를 완벽하게 알 수 없다. 즉 W가 1인 거시 상태에 대해 우리는 그 미시 상태를 확실하게 알 수 있지만, W가 커질수록 그 계의 미시 상태는 불확실해진다. 섀넌은 W의 이러한 특성을 활용하여 정보 엔트로피라는 개념을 제안한다.  


=== 정보 엔트로피 ===
=== 정보 엔트로피와 정보량 ===
섀넌의 정보 엔트로피는 특정한 정보 하에서 남게 되는 불확실성의 정도를 의미하며, 불확실성이 많을수록 더 높은 정보 엔트로피를 가지고 있다고 말한다. 예컨대 동전 2개를 던지는 상황 하에서 얻을 수 있는 결과는 ‘앞앞’, ‘앞뒤’, ‘뒤앞’, ‘뒤뒤’ 4가지로, 이 정보 하에서 불확실성은 4로 표현될 수 있다. 이 상황에서 적어도 1개의 동전은 앞면이라는 정보를 얻고 나면 ‘뒤뒤’의 경우는 제거되고 ‘앞앞’, ‘앞뒤’, ‘뒤앞’이라는 3개의 경우가 남게 된다. 따라서 이 정보는 앞면의 개수가 1개라는 정보보다 남는 불확실성이 많으며, 그보다 정보의 가치가 낮다.
섀넌의 정보 엔트로피는 특정한 정보 하에서 남게 되는 불확실성의 정도를 의미하며, 불확실성이 많을수록 더 높은 정보 엔트로피를 가지고 있다고 말한다. 특정 정보 하에서 남는 경우의 수가 N이고, 모든 경우의 확률이 1/N으로 동일할 때, 그 정보의 엔트로피는 <math>\log_2 N</math>으로 측정되고, 그 단위는 '비트'이다. 예컨대 동전 2개를 던지는 상황 하에서 얻을 수 있는 결과는 ‘앞앞’, ‘앞뒤’, ‘뒤앞’, ‘뒤뒤’ 4가지로, 이 정보 하에서 남게 되는 불확실성을 엔트로피로 표현하면 <math>2 (=\log_2 4)</math>비트가 된다. 이 상황에서 1개의 동전이 앞면이라는 정보를 얻고 나면 ‘앞앞’과 ‘뒤뒤’의 경우는 제거되고 ‘앞뒤’, ‘뒤앞’이라는 2개의 경우가 남아, 그 엔트로피는 <math>1(=\log_2 2)</math>비트가 된다. 특정한 정보의 가치, 정보량은 원래의 엔트로피를 얼마나 감소시키느냐로 측정될 수 있는데, '딱 1개의 동전이 앞면'이라는 정보의 정보량은 <math>1 (=2-1)</math>비트가 된다.


정보의 가치는 배경지식에 상대적이다. 예컨대 어떤 건물에 8명의 사람이 있고 한 살인 사건의 범인이 그 안에 있다고 할 때, 만약 범인이 남자라는 새로운 정보는 어느 정도의 가치를 지닐까? 만약 건물에 사는 사람이 모두 남자였다면, 그 정보의 입수에 의해 남게 되는 불확실성은 여전히 8이다. 반면 건물에 사는 사람 중 절반이 남자라면, 새 정보에 의해 불확실성은 4로 줄어든다. 만약 건물에 남자가 1명뿐이라면, 정보에 의해 남게 되는 불확실성은 1로 줄어들게 되어 범인을 잡는 결정적인 정보가 될 것이다. 이때 정보의 가치는 불확실성의 감소율 또는 확실성의 증가율로 측정된다. 그러면 첫 번째 경우 범인이 남자라는 정보의 가치는 1배로 완전히 무가치한 반면, 두 번째 경우 그 정보의 가치는 2배이며, 세 번째 경우 그 정보의 가치는 8배에 달한다. 이를 '비트'라는 단위로 환산할 수도 있는데, 애초의 불확실성을 측정한 엔트로피는 <math>3(=\log_2 8)</math>비트이다. 첫 번째 정보의 가치는 <math>0 (= \log_2 1)</math>, 두 번째 정보의 가치는 <math>1 (=\log_2 2)</math>, 세 번째 정보의 가치는 <math>3(=\log_2 8)</math>비트이다.  
정보량은 배경지식에 상대적이다. 예컨대 어떤 건물에 8명의 사람이 있고 한 살인 사건의 범인이 그 안에 있다고 할 때(즉 엔트로피는 3비트), 만약 범인이 남자라는 새로운 정보는 어느 정도의 정보량을 지닐까? 만약 건물에 사는 사람이 모두 남자였다면, 그 정보의 입수에 의해 남게 되는 경우의 수는 여전히 8이고, 엔트로피를 하나도 줄이지 못하므로, 그것의 정보량은 0(=3-3)이다. 반면 건물에 사는 사람 중 절반이 남자라면, 새 정보에 의해 남는 경우의 수는 4로 줄어들고, 이때 엔트로피는 3비트에서 2비트로 1만큼 줄어든다. 즉 이 경우의 정보량은 1(=3-2)비트이다. 그런데 만약 건물에 남자가 1명뿐이라면, 범인이 남자라는 정보에 의해 남게 되는 불확실성은 완전히 제거되어, 이는 범인을 잡는 확실한 정보가 될 것이다. 이때 그 정보의 정보량은 3(=3-0)비트가 된다.  


동일한 상황도 우리의 관심에 따라 다른 불확실성이 남게 된다. 공정한 동전 2개를 던지는 상황의 불확실성은 앞에서 4로 간주되었다. 그러나 우리가 동전 2개를 던질 때 나오는 앞면의 개수에만 관심을 가진다면, 그 가능한 결과는 ‘0’, ‘1’, ‘2’의 3가지뿐이다. 그럼에도 1이 나올 가능성은 0이나 2가 나올 가능성보다 높기 때문에, 이 상황을 단지 3가지 결과가 동등하게 가능한 상황만큼 불확실하다고 보긴 어려워 보인다. 그렇다면 그 불확실성의 크기를 어떻게 정하면 좋을까? 이때의 불확실성은 개별 결과가 지닌 정보적 가치의 기하 평균<ref>기하 평균 : x, y, z의 가중치가 a:b:c일 때(단 a+b+c=1), x, y, z의 기하 평균은 x<sup>a</sup>y<sup>b</sup>z<sup>c</sup>이다. 만약 세 가중치가 같다면, x, y, z의 기하 평균은 <math>\sqrt[3]{x y z }</math>이다.</ref>으로 해석될 수 있다. 2개의 동전을 던질 때 앞면의 개수가 0인 결과는 미시적 관점에서 4배의 정보적 가치를 가지고, 1의 결과는 2배의 정보적 가치를, 2의 결과는 4배의 정보적 가치를 지닌다. 각 결과는 각각 0.25, 0.5, 0.25의 확률로 나타날 수 있으므로, 그것을 가중치 삼아 그 기하 평균을 구하면, 공정한 동전 2개를 던질 때 나올 앞면의 개수에 대한 불확실성은 4<sup>0.25</sup>×2<sup>0.5</sup>×4<sup>0.25</sup>로 2가 된다. 이 값은 이 상황이 3개의 결과가 동등하게 불확실한 상황보다는 확실한 상황임을 말해준다. 이 불확실성을 측정한 엔트로피는 <math>1 (=\log_2 2)</math>이다.  
동일한 상황도 우리의 관심에 따라 다른 불확실성이 남게 된다. 공정한 동전 2개를 던지는 상황의 불확실성, 즉 엔트로피는 앞에서 <math>2(=\log_2 4)</math>비트로 간주됐다. 그러나 우리가 동전 2개를 던질 때 나오는 앞면의 개수에만 관심을 가진다면, 그 가능한 결과는 ‘0’, ‘1’, ‘2’의 3가지뿐이다. 그럼에도 1이 나올 가능성은 0이나 2가 나올 가능성보다 높기 때문에, 이 상황을 단지 3가지 결과가 동등하게 가능한 상황만큼 불확실하다고 보긴 어려워 보인다. 그렇다면 그 불확실성의 크기, 즉 엔트로피를 어떻게 정하면 좋을까? 이때의 엔트로피는 개별 결과가 지닌 정보량의 가중치 평균으로 해석될 수 있다. 2개의 동전을 던질 때 앞면의 개수가 0인 결과는 미시적 관점에서 <math>2(=\log_2 4 - \log_2 1 = 2-0)</math>비트의 정보량을 가지고, 1의 결과는 1비트의 정보량을, 2의 결과는 2비트의 정보량을 지닌다. 각 결과는 각각 0.25, 0.5, 0.25의 확률로 나타날 수 있으므로, 각 확률을 가중치 삼아 평균을 구하면, 공정한 동전 2개를 던질 때 나올 앞면의 개수에 대한 불확실성, 즉 정보 엔트로피는 <math>1.5 (= 2 \times 0.25 + 1 \times 0.5 + 2 \times 0.25)</math>비트가 된다. 이 값은 <math>1.58 (=\log_2 3)</math>보다는 작은 값으로, 즉 이 상황이 3개의 결과가 동등하게 불확실한 상황보다는 확실한 상황임을 말해준다.  


=== 메시지의 길이와 정보량 ===
=== 메시지의 길이와 정보량 ===
23번째 줄: 23번째 줄:


메시지 길이로서의 정보량 관점에서, 사건 A의 정보량 3비트는 어떤 의미로 해석해야 할까? 이는 사건 A를 전달하는 데 필요한 메시지의 최소 길이는 아니다. 만약 우리가 A를 2비트 메시지 “00”과 대응시키기로 했다면, A를 전달하는 데 2비트만 필요했을 것이기 때문이다. 심지어 우리는 A를 1비트 메시지 “0”과 대응시키기로 결정할 수도 있다. 그러나 그렇게 하면 다른 사건을 더 긴 메시지와 대응시킴으로써, 평균적으로는 더 긴 메시지가 필요하게 될 것이다. 결국 사건 A의 정보량 3비트는 사건 A를 포함한 사건 집합 {A, B, C, D} 중에서 어느 사건이 일어났는지를 전달하는 메시지의 평균 길이를 최소화하기 위해 필요한 A의 메시지 길이로 해석될 수 있다. 그리고 사건 집합에 대해 필요한 메시지의 평균 길이의 이론적 최솟값을 그 사건 집합의 정보 엔트로피라고 부르며, 이 값은 확률적 관점에서 정의된 각 사건의 정보량들의 평균값이기도 하다.  
메시지 길이로서의 정보량 관점에서, 사건 A의 정보량 3비트는 어떤 의미로 해석해야 할까? 이는 사건 A를 전달하는 데 필요한 메시지의 최소 길이는 아니다. 만약 우리가 A를 2비트 메시지 “00”과 대응시키기로 했다면, A를 전달하는 데 2비트만 필요했을 것이기 때문이다. 심지어 우리는 A를 1비트 메시지 “0”과 대응시키기로 결정할 수도 있다. 그러나 그렇게 하면 다른 사건을 더 긴 메시지와 대응시킴으로써, 평균적으로는 더 긴 메시지가 필요하게 될 것이다. 결국 사건 A의 정보량 3비트는 사건 A를 포함한 사건 집합 {A, B, C, D} 중에서 어느 사건이 일어났는지를 전달하는 메시지의 평균 길이를 최소화하기 위해 필요한 A의 메시지 길이로 해석될 수 있다. 그리고 사건 집합에 대해 필요한 메시지의 평균 길이의 이론적 최솟값을 그 사건 집합의 정보 엔트로피라고 부르며, 이 값은 확률적 관점에서 정의된 각 사건의 정보량들의 평균값이기도 하다.  
== 주 ==
<references />
[[분류:과학교양]]
[[분류:과학교양]]

둘러보기 메뉴