편집
1,117
번
| 48번째 줄: | 48번째 줄: | ||
유한한 수의 뽑기 시도 후의 기대 범주 개수(호페 항아리의 색깔 수 또는 중국 식당의 테이블 수)는 송신자가 보내는 신호의 종류 수와 대응되며, 이는 로그 스케일로 증가한다. 한편, 동일한 색깔 수(테이블) 수, 동일한 시행 횟수(손님 수)이라도, 서로 다른 분할이 가능하다. 2종류의 색깔, 10개의 공은 다섯 가지 분할을 가진다. 5+5, 4+6, 3+7, 2+8, 1+9. 분할별 확률은 불균등할수록 더 커진다. 마지막으로, 호페-포어 항아리는 포여 항아리들 사이의 이동으로도 묘사될 수 있다. 검은 공이 나올 때마다, 인접한 다른 항아리에 기존 공과 새로운 공을 집어넣고 게임을 다시 시작하는 것이다. 즉, 이는 게임 사이의 이동인 셈이다. | 유한한 수의 뽑기 시도 후의 기대 범주 개수(호페 항아리의 색깔 수 또는 중국 식당의 테이블 수)는 송신자가 보내는 신호의 종류 수와 대응되며, 이는 로그 스케일로 증가한다. 한편, 동일한 색깔 수(테이블) 수, 동일한 시행 횟수(손님 수)이라도, 서로 다른 분할이 가능하다. 2종류의 색깔, 10개의 공은 다섯 가지 분할을 가진다. 5+5, 4+6, 3+7, 2+8, 1+9. 분할별 확률은 불균등할수록 더 커진다. 마지막으로, 호페-포어 항아리는 포여 항아리들 사이의 이동으로도 묘사될 수 있다. 검은 공이 나올 때마다, 인접한 다른 항아리에 기존 공과 새로운 공을 집어넣고 게임을 다시 시작하는 것이다. 즉, 이는 게임 사이의 이동인 셈이다. | ||
=== 발명이 동반된 강화 학습 === | === 발명이 동반된 강화 학습 === | ||
호페-포여 모형은 색깔별 보상이 동일한 강화 학습 과정이다. 이제 보상을 차별화한다면? 이를 통해 우리는 발명이 동반된 강화 학습을 얻게 된다. | |||
'''(1) 새 신호의 발명 :''' 송신자는 상태별 항아리(1번 상태 항아리, 2번 상태 항아리)에서, 상태에 맞게 항아리를 골라 색깔 공(R, G, B)을 꺼낸다. 수신자는 색깔별 항아리(R 항아리, G 항아리..)에서 행위 공(A1, A2)을 꺼낸다. 송-수신자는 상태-행위에 따른 보상을 받아, 항아리에 공을 추가한다. 여기에 우리는 "새 신호 보내기"를 송신자의 추가 선택지로 도입한다. 이 선택지는 항상 가능하다. 만약 수신자가 새 신호를 받으면, 행위자는 일단 새 신호에 대한 무작위 항아리를 만들어 행위한다. 새 신호에 따른 행위가 성공적이지 않으면 모든 것을 원상복구한다. 그러나 만약 새 신호에 따른 행위가 성공적이면 송수신자는 보상을 통해 강화된다. 이를 통해 N 신호 게임에서 N+1 신호 게임으로 이동하게 된다. 요컨대, | |||
# 새 신호가 신호되지 않으며, 게임은 변하지 않는다. 강화는 고정된 개수의 신호로 이루어진 게임처럼 진행된다. | |||
# 새 신호가 시도되나 성공하지 못하면, 게임은 변하지 않는다. | |||
# 새 신호가 시도되고 성공하면, 게임은 m개의 신호에서 m+1개의 신호를 가진 게임으로 변모한다. | |||
'''(2) 무에서 시작하기 :''' N 신호 게임에서 N+1 신호 게임으로 이동할 수 있다면, 완전히 무에서 시작해 진화하는 것도 가능하다. 3 상태, 3 행위 루이스 신호 게임을 상상해보자. 각 상태는 동등한 확률을 가지고, 정확히 각 상태별로 하나씩의 행위가 적절하다고 가정하자. 시뮬레이션 결과, 호페-포여 모형을 통해 무에서 시작할 때, 100,000 시행 후 만들어진 체계는 5개에서 25개 사이의 신호를 가진 신호 체계이다. | |||
'''(3) 풀링 함정의 회피 :''' 발명이 동반된 강화 학습은 풀링 함정에 빠지지 않는다. 원래의 3-3-3 Roth-Erev 강화학습에서는 9% 정도가 부분 풀링 평형에 빠져 불완전 정보 전달에 이르렀다. 그러나 발명이 동반된 강화 학습에서는 모두가 효율적인 신호 체계에 도달했다. 즉, 더 많은 신호를 발명함으로써, 많은 동의어를 다수 만들어냄으로써, 부분 풀링 함정에 빠지지 않게 된 것이다. 또한 원래의 강화 학습에서는 상태별 확률이 불균등할수록 풀링 함정에 잘 빠졌다(0.9에서는 44%가 완전 풀링 함정에 빠짐). 왜냐하면 신호에 무관하게 원래 빈번한 상태에 맞는 행위를 하기만 하면 되기 때문이다. 따라서 높은 불균등 상태 확률은 효율적 신호 체계 진화의 주된 장벽이다. 그러나 발명이 동반된 강화 학습에서는 이런 극단적 불균등 경우에도 풀링 함정에 절대 빠지지 않았다. 즉, 새로운 신호의 발명 덕분에, 효율적 신호 체계는 훨씬 더 안정적으로 일어나는(robust) 현상이 된다. | |||
=== 동의어와 망각이 동반된 강화 학습 === | |||
발명이 동반된 강화 학습은 수많은 동의어를 양산한다. 3 상태, 3 행위 신호 게임에서, 100,000 시행 후, 13개의 신호로 이루어진 신호 체계가 만들어질 때, 실제로 사용되는 신호는 일부에 불과하며, 대부분의 신호는 거의 사용되지 않는다. 이는 (누적 보상에 의존하는) 강화 학습의 특성상, 선택 잇점이 없을 때조차도, 강화의 분배는 매우 불균등하기 마련이다. 혹시 거의 사용되지 않는 신호를 아예 가용 신호에서 없앨 수는 없을까? | |||
망각을 위해 우리는 호페-포여 항아리에서 일정한 확률로 공을 무작위로 없애는 절차를 추가할 수 있다. 첫 번째 방법은 무작위로 항아리를 골라, 무작위로 공 하나를 골라 버리는 것이다. 두 번째로, 제이슨 맥켄지 알렉산더가 제안한 방법은, 무작위로 항아리를 골라, 무작위로 색깔을 고른 후에 공을 골라 버리는 것이다. 어느 방법이든, 이러한 절차는 송신자 항아리들 속 특정한 색깔의 멸종을 초래할 수 있다. 이 경우 우리는 그 신호에 대응하는 수신자의 항아리도 없애는 것으로 하면 된다. | |||
망각의 두 가지 방법 중, 첫 번째 방법은 덜 사용되는 신호를 멸종시키기보단 유지시킨다. 왜냐하면 버리는 공은 대부분 많이 사용되는 공이 될 것이기 때문이다. 반면 알렉산더의 방법은 효율적 신호 체계의 진화를 망가뜨리지 않고서 덜 사용되는 신호만 제거해줌으로써, 충분히 긴 학습 시뮬레이션은 효율적 신호 체계에 필요한 최소한의 신호 개수에 근접한 결과를 제공한다. | |||
== 관련 항목 == | == 관련 항목 == | ||