Signals: Evolution, Learning, & Information
Brian Skyrms, Signals: Evolution, Learning, & Information (Oxford University Press, 2010).
목차
- Introduction
- Signals
- Signals in Nature
- The Flow of Information
- Evolution
- Evolution in Lewis Signaling Games
- Deception
- Learning
- Learning in Lewis Signaling Games
- Generalizing Signaling Games: Synonyms, Bottlenecks and Other Mismatches
- Inventing New Signals
- Networks I: Information Processing
- Complex Signals and Compositionality
- Networks II: Teamwork
- Learning to Network
9. 신호 게임의 일반화 : 동의어, 병목 등
이 장에서 스컴스는 송신사-수신자 신호 게임의 상태, 행위, 신호의 수가 같은 특수한 경우를 넘어서는 일반화를 시도한다. 상태가 신호/행위에 비해 많거나, 신호의 개수가 상태/행위에 비해 너무 적거나 많은 경우에는 어떤 일이 벌어질까? (일단, 적절한 상태-행위에 따라 송신자와 수신자가 받는 보상이 같다는 조건은 유지한다.) 결론만 말하자면, (1) 상태가 많은 경우, (하나의 신호가 여러 상태에 대한 정보를 전달하는) 범주 체계가 형성되고, (2) 신호가 많은 경우, (여러 신호가 하나의 상태에 대한 정보를 전달하는) 동의어가 만들어지고, (3) 신호가 적은 경우, 병목이 발생함에 따라 (여러 상태와 행위가 하나의 신호로 매개되는) 범주 체계가 형성된다. (4) 상태의 정확성 수준이 다양할 경우, 신호 게임은 다양한 수준의 범주 체계들을 형성한다.
(1) 상태가 많은 경우 : 상태 3개, 신호 2개, 행위 2개로 이루어진 게임을 가정하자. 1번 상태는 1번 행위로만 보상받고, 2번 상태는 2번 행위로만 보상받는다고 하자. 이때 3번 상태에 대해 더 나은 행위가 없는 경우, 3번 상태에 대해서는 무엇이든 허용된다. 그러나 3번 상태에 대해, 1번 행위에 따른 보상이 2번 행위에 따른 보상보다 조금이라도 높다면, 이때의 진화적으로 안정적인 전략은 1번 신호가 1,3번 상태를 마치 하나의 상태처럼 취급하는 것이다. 결국, 일반화하면, 상태가 많은 신호 체계에서, 신호 체계는 하나의 신호가 여러 상태에 대한 정보를 전달하는 하나의 범주 체계를 만들어낸다.
(2) 신호가 많은 경우 : 여러 신호가 하나의 상태에 대한 정보를 전달하는 동의어가 만들어진다. 이때, 신호 분배 비율은 임의적이다. (물론 상태에 대한 송신자의 신호가 하나씩 정해지는 경우도 가능하다. 이때 수신자는 나머지 한 신호에 대한 다양한 행위 성향을 가질 수 있지만, 이러한 행위 성향은 발현되지 않는다.) 신호가 많은 경우, 최종적으로 어떤 체계를 얻게 될지 평형 분석은 답해주지 않는다. 이는 동역학적으로만 답해질 수 있으며, 즉 그 답은 초기 조건과 동역학적 법칙에 의존한다. 강화 학습이 이용된다면? 혹시 강화 학습이 동의어를 제거하지 않을까? No. 동의어는 형성되고 계속 유지된다. 다른 동역학 모형에서는 다른 결과가 나올 수 있지만, 이에 대한 완전한 분석은 아직 이루어지지 않았다.
(3) 신호가 적은 경우 : 신호가 상태와 행위를 매개하기에 적은 경우, 이는 정보적 병목의 경우이다. 병목은 준-최적의 진화적 안정 전략을 만들어낼 수 있다. 상태와 행위에 따른 보상이 다음의 표와 같다고 가정하고, 세 상태는 동일한 확률로 발생한다고 한다고 가정하자. 세 개의 신호가 있을 경우, 세 상태는 세 신호를 통해 세 행위와 매개될 수 있다. 그러나 2개의 신호만 있다면 어떤 신호 체계가 만들어질까? 한 가지 가능한 결과는 1,2번 상태가 하나의 신호를 통해 1번 행위와 매개되고, 3번 상태가 다른 하나의 신호를 통해 3번 행위와 매개되는 것으로, 꽤 괜찮은 (평균 보상 7의) 진화적 안정 전략(ESS)이다. 그러나 다른 ESS도 있다. 1번 상태가 하나의 신호를 통해 1번 행위와 매개되고, 2,3번 상태는 다른 하나의 신호를 통해 2번 행위와 매개된는 것으로, 이는 평균 보상 6의 준-최적의 전략이다. 이러한 두 가지 평형은 신호 체계가 세계를 범주화하는 두 가지 방식을 표상하며, 이는 범주 체계가 항상 최적 상태로 진화하진 않을 수 있음을 보여준다.
(4) 상태를 때로는 정확하게 때로는 부정확하게 관찰하는 경우 : 예컨대, 원숭이는 때로는 표범, 독수리, 뱀을 정확히 구별할 수 있으나, 때로는 지상 포식자(표범 or 뱀)와 공중 포식자로만 구별할 수 있다고 하자. 이때 "표범 또는 뱀"이란 정보에 대한 최적의 행위는 표범에 대한 최적의 행위도, 뱀에 대한 최적의 행위도 아닌 제3의 행위일 수 있다. 이에 따라, 훨씬 확대된 상태-행위 보상 체계를 검토할 수 있다. 표의 보상 체계의 경우, 만약 신호가 충분하다면, 이에 대한 진화적 안정 전략은 3개의 정확한 상태와 3개의 부정확한 상태에 대한 각각의 최적의 행위를 매개하는 6개의 신호로 이루어진 신호 체계이다. 이 체계에서, 4번, 5번, 6번 신호는 1번, 2번, 3번 신호에 대해 준-진리-기능적 내용을 가진 것으로 간주될 수 있다. 이 사례에서, S1, S2, S3는 가장 미세한 분할을 표상하지만, S4, S5, S6는 이에 대한 보다 거친 분할, 즉 일종의 범주를 표상한다. 이로써 신호 게임은 다양한 수준의 범주 체계들이 어떻게 진화할 수 있는지에 대한 설명을 제공한다. 이는 복잡한 이성적 사고 없이도 일어날 수 있으며, 적응적 동역학의 행위 결과만으로도 일어날 수 있다.
10. 새 신호의 발명
행위자가 의사소통에 필요한 신호를 충분히 가지고 있지 않을 수 있다. 이러한 병목 현상에 대한 한 가지 좋은 해결책은 바로 새로운 신호를 발명하는 것이다. 이 장에서 스컴스는 새 신호의 발명 과정을 묘사할 수 있는 단순한 모형을 제시하고자 한다. 우리는 가용 신호들이 고정된 닫힌 모형을 넘어, 신호의 공간 자체가 진화할 수 있는 열린 모형을 탐구하게 된다.
자연에서의 발명과 일반 원리 : 유전적 진화와 문화적 진화
(1) 문턱 감지(quorum-sensing) 신호 체계 : 하와이 오징어 Euprymna scolopes의 발광 조직에 거주하는 박테라아 Vibrio fisheri는 정족수 감지 신호 체계를 발전시켰다. 그 박테리아는 오징어로부터 영양분을 공급받는 대신, 오징어에게 빛을 이용한 위장 기능을 제공한다. 박테리아의 빛 생산은 문턱 감지를 통해 조절된다. 이 박테리아는 작은 확산성의 AHL 분자를 생산하는데, 각 박테리아는 주위의 AHL 분자 농도가 높을수록 더 많은 AHL 분자를 생산한다. 그 농도가 충분히 높아져 문턱을 넘으면, 빛을 켜는 유전자가 발현된다. (이후 오징어는 박테리아들을 내보내 빛을 끈다.) 이와 유사한 사례들에서, 문턱 감지는 박테리아에게 다른 박테리아와 의사소통하여 행위를 변화시킬 수 있는 능력을 제공하고, 개체들의 집합이 전체적인 행동을 조율하여 마치 다세포 생물처럼 행동하도록 해준다. 즉, 가장 원시적인 유기체에서도 신호의 발명과 변경이 이루어진다.
(2) 인간 사냥꾼을 동반한 들개의 만남 : 버빗 원숭이는 원래 들개를 만나면, 큰 경보를 울리며 나무 위로 올라가지만, 인간 사냥꾼을 동반한 개와의 만남에서 이는 오히려 죽음을 초래한다. 이러한 환경에서 원숭이들은 자신들이 가지고 있는 잠재적인 음성 신호 공간을 활용하여 새로운 신호와 행위를 개발했다. 그들은 이제 들개를 만나면, 짧고 작은 경보를 울리며 인간이 쫓기 어려운 덤불로 조용히 숨는다.
(3) 일반 원리 : 자연이 행위자에게 새로운 상태(e.g., "개와 사냥꾼")를 제공하고, 새로운 상태의 출현이 (e.g., 한 원숭이가 총에 맞아) 확립되고, 적절한 새로운 회피 행위가 집단 내에서 시행착오를 통해 발견된다. 일단 새로운 행위와 새로운 행위를 가지게 되면, 정보 병목의 상황에 처하고, 새 신호의 발명이 요구된다. 송신자에게 많은 잠재적 가용 신호가 있고, 그들 중 하나를 시도하고, 수신자는 행위를 시도한다. 행운의 일치는 보상을 받는다. 일반 원리를 말로 진술하는 것은 어렵지 않지만, 분석을 위해 모형을 구성하여 살펴볼 필요가 있다.
중국 식당 과정과 호페-포여 항아리 모형
중국 식당 과정이란 (N+1)번째 손님이 기존 손님 옆에 앉을 확률이 1/(N+1), 새로운 테이블에 (1명의 유령 손님 옆에) 앉을 확률이 1/(N+1)인 단순한 과정을 의미한다. 1번 손님은 1번 테이블에 앉고, 2번 손님은 1/2의 확률로 1번 테이블 또는 2번 테이블에 앉는다. 만약 1,2번 손님이 모두 1번 테이블에 앉을 경우, 3번 손님은 2/3의 확률로 1번 테이블에 앉거나 1/3의 확률로 2번 테이블에 앉는다. 이런 방식으로 손님이 들어올 때마다 동일한 확률로 기존 손님 옆 또는 새로운 테이블에 계속 배정될 경우, 필요한 테이블의 수는 대체로 손님 수의 로그를 따라 아주 천천히 증가한다.
이러한 중국 식당 과정은 호페-포여 항아리 모형(Hoppe-Pólya urn model)과 동등하다. 고전적 포여 항아리에서는 항아리에서 공 하나를 꺼내볼 때마다 그 공과 같은 색의 공을 하나 더 집어넣는다(이는 색깔에 따른 보상이 모두 동일한 강화 학습임). 이 과정은 어쨌든 어딘가로 수렴하게 되어 있다. 호페는 여기에 검은 공(돌연변이자)을 추가하여, 검은 공이 나올 때면 항아리에 없던 새로운 색의 공을 하나 추가하도록 했다. 이 과정을 통해 우리는 다양한 개수의 범주로 이루어진 무작위 분할을 얻게 되며, 이 분할은 분할 교환가능성(partition exchangeability)라는 특성을 가진다.
유한한 수의 뽑기 시도 후의 기대 범주 개수(호페 항아리의 색깔 수 또는 중국 식당의 테이블 수)는 송신자가 보내는 신호의 종류 수와 대응되며, 이는 로그 스케일로 증가한다. 한편, 동일한 색깔 수(테이블) 수, 동일한 시행 횟수(손님 수)이라도, 서로 다른 분할이 가능하다. 2종류의 색깔, 10개의 공은 다섯 가지 분할을 가진다. 5+5, 4+6, 3+7, 2+8, 1+9. 분할별 확률은 불균등할수록 더 커진다. 마지막으로, 호페-포어 항아리는 포여 항아리들 사이의 이동으로도 묘사될 수 있다. 검은 공이 나올 때마다, 인접한 다른 항아리에 기존 공과 새로운 공을 집어넣고 게임을 다시 시작하는 것이다. 즉, 이는 게임 사이의 이동인 셈이다.
발명이 동반된 강화 학습
호페-포여 모형은 색깔별 보상이 동일한 강화 학습 과정이다. 이제 보상을 차별화한다면? 이를 통해 우리는 발명이 동반된 강화 학습을 얻게 된다.
(1) 새 신호의 발명 : 송신자는 상태별 항아리(1번 상태 항아리, 2번 상태 항아리)에서, 상태에 맞게 항아리를 골라 색깔 공(R, G, B)을 꺼낸다. 수신자는 색깔별 항아리(R 항아리, G 항아리..)에서 행위 공(A1, A2)을 꺼낸다. 송-수신자는 상태-행위에 따른 보상을 받아, 항아리에 공을 추가한다. 여기에 우리는 "새 신호 보내기"를 송신자의 추가 선택지로 도입한다. 이 선택지는 항상 가능하다. 만약 2번 상태 항아리를 고른 송신직 새 신호(예컨대 Y)를 보내고, 수신자가 그 신호를 받으면, 행위자는 일단 새 신호(Y)에 대한 무작위 항아리(행위 A1, A2 하나씩 들어있는)를 만들어 그중 하나를 무작위로 행위한다. 새 신호에 따른 행위가 성공적이지 않으면 모든 것을 원상복구한다(수신자의 새 항아리는 없애고, 송신자의 새 신호는 없었던 것으로 복귀시킴.). 그러나 만약 새 신호에 따른 행위(예컨대 A2)가 성공적이면, 송수신자는 보상을 통해 강화된다(수신자의 Y 항아리에 A2가 하나 더 추가되고, 송신자의 모든 상태 항아리에는 새 신호 Y가 하나씩 추가되고, 2번 상태 항아리에는 Y가 하나 더 추가된다). 이를 통해 N 신호 게임에서 N+1 신호 게임으로 이동하게 된다. 요컨대,
- 새 신호가 신호되지 않으며, 게임은 변하지 않는다. 강화는 고정된 개수의 신호로 이루어진 게임처럼 진행된다.
- 새 신호가 시도되나 성공하지 못하면, 게임은 변하지 않는다.
- 새 신호가 시도되고 성공하면, 게임은 m개의 신호에서 m+1개의 신호를 가진 게임으로 변모한다.
(2) 무에서 시작하기 : N 신호 게임에서 N+1 신호 게임으로 이동할 수 있다면, 완전히 무에서 시작해 진화하는 것도 가능하다. 3 상태, 3 행위 루이스 신호 게임을 상상해보자. 각 상태는 동등한 확률을 가지고, 정확히 각 상태별로 하나씩의 행위가 적절하다고 가정하자. 시뮬레이션 결과, 호페-포여 모형을 통해 무에서 시작할 때, 100,000 시행 후 만들어진 체계는 5개에서 25개 사이의 신호를 가진 신호 체계이다.
- 스크래치로 만든 시뮬레이션 : https://scratch.mit.edu/projects/1132345199
(3) 풀링 함정의 회피 : 발명이 동반된 강화 학습은 풀링 함정에 빠지지 않는다. 원래의 3-3-3 Roth-Erev 강화학습에서는 9% 정도가 부분 풀링 평형에 빠져 불완전 정보 전달에 이르렀다. 그러나 발명이 동반된 강화 학습에서는 모두가 효율적인 신호 체계에 도달했다. 즉, 더 많은 신호를 발명함으로써, 많은 동의어를 다수 만들어냄으로써, 부분 풀링 함정에 빠지지 않게 된 것이다. 또한 원래의 강화 학습에서는 상태별 확률이 불균등할수록 풀링 함정에 잘 빠졌다(0.9에서는 44%가 완전 풀링 함정에 빠짐). 왜냐하면 신호에 무관하게 원래 빈번한 상태에 맞는 행위를 하기만 하면 되기 때문이다. 따라서 높은 불균등 상태 확률은 효율적 신호 체계 진화의 주된 장벽이다. 그러나 발명이 동반된 강화 학습에서는 이런 극단적 불균등 경우에도 풀링 함정에 절대 빠지지 않았다. 즉, 새로운 신호의 발명 덕분에, 효율적 신호 체계는 훨씬 더 안정적으로 일어나는(robust) 현상이 된다
동의어와 망각이 동반된 강화 학습
발명이 동반된 강화 학습은 수많은 동의어를 양산한다. 3 상태, 3 행위 신호 게임에서, 100,000 시행 후, 13개의 신호로 이루어진 신호 체계가 만들어질 때, 실제로 사용되는 신호는 일부에 불과하며, 대부분의 신호는 거의 사용되지 않는다. 이는 (누적 보상에 의존하는) 강화 학습의 특성상, 선택 잇점이 없을 때조차도, 강화의 분배는 매우 불균등하기 마련이다. 혹시 거의 사용되지 않는 신호를 아예 가용 신호에서 없앨 수는 없을까?
망각을 위해 우리는 호페-포여 항아리에서 일정한 확률로 공을 무작위로 없애는 절차를 추가할 수 있다. 첫 번째 방법은 무작위로 항아리를 골라, 무작위로 공 하나를 골라 버리는 것이다. 두 번째로, 제이슨 맥켄지 알렉산더가 제안한 방법은, 무작위로 항아리를 골라, 무작위로 색깔을 고른 후에 공을 골라 버리는 것이다. 어느 방법이든, 이러한 절차는 송신자 항아리들 속 특정한 색깔의 멸종을 초래할 수 있다. 이 경우 우리는 그 신호에 대응하는 수신자의 항아리도 없애는 것으로 하면 된다.
망각의 두 가지 방법 중, 첫 번째 방법은 덜 사용되는 신호를 멸종시키기보단 유지시킨다. 왜냐하면 버리는 공은 대부분 많이 사용되는 공이 될 것이기 때문이다. 반면 알렉산더의 방법은 효율적 신호 체계의 진화를 망가뜨리지 않고서 덜 사용되는 신호만 제거해줌으로써, 충분히 긴 학습 시뮬레이션은 효율적 신호 체계에 필요한 최소한의 신호 개수에 근접한 결과를 제공한다.