"Signals: Evolution, Learning, & Information"의 두 판 사이의 차이

Signals: Evolution, Learning, & Information (원본 보기)

2025년 2월 14일 (금) 09:30 판

4 바이트 추가됨 , 2025년 2월 14일 (금) 09:30

→‎9. 신호 게임의 일반화 : 동의어, 병목 등

Zolaist

사무관, 인터페이스 관리자, 관리자

편집

1,153

번

@@ 27번째 줄: / 27번째 줄: @@
 '''(2) 신호가 많은 경우 :''' 여러 신호가 하나의 상태에 대한 정보를 전달하는 동의어가 만들어진다. 이때, 신호 분배 비율은 임의적이다. (물론 상태에 대한 송신자의 신호가 하나씩 정해지는 경우도 가능하다. 이때 수신자는 나머지 한 신호에 대한 다양한 행위 성향을 가질 수 있지만, 이러한 행위 성향은 발현되지 않는다.) 신호가 많은 경우, 최종적으로 어떤 체계를 얻게 될지 평형 분석은 답해주지 않는다. 이는 동역학적으로만 답해질 수 있으며, 즉 그 답은 초기 조건과 동역학적 법칙에 의존한다. 강화 학습이 이용된다면? '''혹시 강화 학습이 동의어를 제거하지 않을까? No.''' '''동의어는 형성되고 계속 유지된다.''' 다른 동역학 모형에서는 다른 결과가 나올 수 있지만, 이에 대한 완전한 분석은 아직 이루어지지 않았다.
 [[파일:상태-행위 보상의 사례.jpg|섬네일|3개의 상태와 3개의 행위 각각에 대한 보상들. 각 상태마다 최적의 행위가 있기 때문에, 3개의 신호가 있다면, 각 행위와 상태를 1:!로 매개해줄 수 있었을 것이다.]]
-'''(3) 신호가 적은 경우 :''' 신호가 상태와 행위를 매개하기에 적은 경우, 이는 정보적 병목의 경우이다. 병목은 준-최적의 진화적 안정 전략을 만들어낼 수 있다. 상태와 행위에 따른 보상이 다음의 표와 같다고 가정하고, 세 상태는 동일한 확률로 발생한다고 한다고 가정하자. 세 개의 신호가 있을 경우, 세 상태는 세 신호를 통해 세 행위와 매개될 수 있다. 그러나 2개의 신호만 있다면 어떤 신호 체계가 만들어질까? 한 가지 가능한 결과는 1,2번 상태가 하나의 신호를 통해 1번 행위와 매개되고, 3번 상태가 다른 하나의 신호를 통해 3번 행위와 매개되는 것으로, 꽤 괜찮은 (평균 보상 7의) 진화적 안정 전략이다. 그러나 다른 ESS도 있다. 1번 상태가 하나의 신호를 통해 1번 행위와 매개되고, 2,3번 상태는 다른 하나의 신호를 통해 2번 행위와 매개된는 것으로, 이는 평균 보상 6의 준-최적의 전략이다. 이러한 두 가지 평형은 신호 체계가 세계를 범주화하는 두 가지 방식을 표상하며, 이는 범주 체계가 항상 최적 상태로 진화하진 않을 수 있음을 보여준다.
+'''(3) 신호가 적은 경우 :''' 신호가 상태와 행위를 매개하기에 적은 경우, 이는 정보적 병목의 경우이다. 병목은 준-최적의 진화적 안정 전략을 만들어낼 수 있다. 상태와 행위에 따른 보상이 다음의 표와 같다고 가정하고, 세 상태는 동일한 확률로 발생한다고 한다고 가정하자. 세 개의 신호가 있을 경우, 세 상태는 세 신호를 통해 세 행위와 매개될 수 있다. 그러나 2개의 신호만 있다면 어떤 신호 체계가 만들어질까? 한 가지 가능한 결과는 1,2번 상태가 하나의 신호를 통해 1번 행위와 매개되고, 3번 상태가 다른 하나의 신호를 통해 3번 행위와 매개되는 것으로, 꽤 괜찮은 (평균 보상 7의) 진화적 안정 전략(ESS)이다. 그러나 다른 ESS도 있다. 1번 상태가 하나의 신호를 통해 1번 행위와 매개되고, 2,3번 상태는 다른 하나의 신호를 통해 2번 행위와 매개된는 것으로, 이는 평균 보상 6의 준-최적의 전략이다. 이러한 두 가지 평형은 신호 체계가 세계를 범주화하는 두 가지 방식을 표상하며, 이는 범주 체계가 항상 최적 상태로 진화하진 않을 수 있음을 보여준다.
 [[파일:부정확한 상태와 그에 대한 행위를 포함한 보상 체계.jpg|섬네일|부정확한 상태와 그에 대한 행위를 포함한 보상 체계. 각각의 1번, 2번, 3번 상태에 대한 최적의 행위는 1번, 2번, 3번 행위이지만, "1 또는 2" 상태에 대한 최적의 행위는 4번, "2 또는 3" 상태에 대한 최적의 행위는 5번, "3 또는 1" 상태에 대한 최적의 행위는 6번이다. ]]
 '''(4) 상태를 때로는 정확하게 때로는 부정확하게 관찰하는 경우 :''' 예컨대, 원숭이는 때로는 표범, 독수리, 뱀을 정확히 구별할 수 있으나, 때로는 지상 포식자(표범 or 뱀)와 공중 포식자로만 구별할 수 있다고 하자. 이때 "표범 또는 뱀"이란 정보에 대한 최적의 행위는 표범에 대한 최적의 행위도, 뱀에 대한 최적의 행위도 아닌 제3의 행위일 수 있다. 이에 따라, 훨씬 확대된 상태-행위 보상 체계를 검토할 수 있다. 표의 보상 체계의 경우, 만약 신호가 충분하다면, 이에 대한 진화적 안정 전략은 3개의 정확한 상태와 3개의 부정확한 상태에 대한 각각의 최적의 행위를 매개하는 6개의 신호로 이루어진 신호 체계이다. 이 체계에서, 4번, 5번, 6번 신호는 1번, 2번, 3번 신호에 대해 준-진리-기능적 내용을 가진 것으로 간주될 수 있다. 이 사례에서, S1, S2, S3는 가장 미세한 분할을 표상하지만, S4, S5, S6는 이에 대한 보다 거친 분할, 즉 일종의 범주를 표상한다. 이로써 신호 게임은 다양한 수준의 범주 체계들이 어떻게 진화할 수 있는지에 대한 설명을 제공한다. 이는 복잡한 이성적 사고 없이도 일어날 수 있으며, 적응적 동역학의 행위 결과만으로도 일어날 수 있다.
 == 10. 새 신호의 발명 ==

"Signals: Evolution, Learning, & Information"의 두 판 사이의 차이

Signals: Evolution, Learning, & Information (원본 보기)

2025년 2월 14일 (금) 09:30 판

둘러보기 메뉴

검색