편집
1,117
번
태그: 모바일 웹 편집 모바일 편집 |
|||
| 51번째 줄: | 51번째 줄: | ||
호페-포여 모형은 색깔별 보상이 동일한 강화 학습 과정이다. 이제 보상을 차별화한다면? 이를 통해 우리는 발명이 동반된 강화 학습을 얻게 된다. | 호페-포여 모형은 색깔별 보상이 동일한 강화 학습 과정이다. 이제 보상을 차별화한다면? 이를 통해 우리는 발명이 동반된 강화 학습을 얻게 된다. | ||
'''(1) 새 신호의 발명 :''' 송신자는 상태별 항아리(1번 상태 항아리, 2번 상태 항아리)에서, 상태에 맞게 항아리를 골라 색깔 공(R, G, B)을 꺼낸다. 수신자는 색깔별 항아리(R 항아리, G 항아리..)에서 행위 공(A1, A2)을 꺼낸다. 송-수신자는 상태-행위에 따른 보상을 받아, 항아리에 공을 추가한다. 여기에 우리는 "새 신호 보내기"를 송신자의 추가 선택지로 도입한다. 이 선택지는 항상 가능하다. 만약 수신자가 | '''(1) 새 신호의 발명 :''' 송신자는 상태별 항아리(1번 상태 항아리, 2번 상태 항아리)에서, 상태에 맞게 항아리를 골라 색깔 공(R, G, B)을 꺼낸다. 수신자는 색깔별 항아리(R 항아리, G 항아리..)에서 행위 공(A1, A2)을 꺼낸다. 송-수신자는 상태-행위에 따른 보상을 받아, 항아리에 공을 추가한다. 여기에 우리는 "새 신호 보내기"를 송신자의 추가 선택지로 도입한다. 이 선택지는 항상 가능하다. 만약 2번 상태 항아리를 고른 송신직 새 신호(예컨대 Y)를 보내고, 수신자가 그 신호를 받으면, 행위자는 일단 새 신호(Y)에 대한 무작위 항아리(행위 A1, A2 하나씩 들어있는)를 만들어 그중 하나를 무작위로 행위한다. 새 신호에 따른 행위가 성공적이지 않으면 모든 것을 원상복구한다(수신자의 새 항아리는 없애고, 송신자의 새 신호는 없었던 것으로 복귀시킴.). 그러나 만약 새 신호에 따른 행위(예컨대 A2)가 성공적이면, 송수신자는 보상을 통해 강화된다(수신자의 Y 항아리에 A2가 하나 더 추가되고, 송신자의 모든 상태 항아리에는 새 신호 Y가 하나씩 추가되고, 2번 상태 항아리에는 Y가 하나 더 추가된다). 이를 통해 N 신호 게임에서 N+1 신호 게임으로 이동하게 된다. 요컨대, | ||
# 새 신호가 신호되지 않으며, 게임은 변하지 않는다. 강화는 고정된 개수의 신호로 이루어진 게임처럼 진행된다. | # 새 신호가 신호되지 않으며, 게임은 변하지 않는다. 강화는 고정된 개수의 신호로 이루어진 게임처럼 진행된다. | ||
| 59번째 줄: | 59번째 줄: | ||
'''(2) 무에서 시작하기 :''' N 신호 게임에서 N+1 신호 게임으로 이동할 수 있다면, 완전히 무에서 시작해 진화하는 것도 가능하다. 3 상태, 3 행위 루이스 신호 게임을 상상해보자. 각 상태는 동등한 확률을 가지고, 정확히 각 상태별로 하나씩의 행위가 적절하다고 가정하자. 시뮬레이션 결과, 호페-포여 모형을 통해 무에서 시작할 때, 100,000 시행 후 만들어진 체계는 5개에서 25개 사이의 신호를 가진 신호 체계이다. | '''(2) 무에서 시작하기 :''' N 신호 게임에서 N+1 신호 게임으로 이동할 수 있다면, 완전히 무에서 시작해 진화하는 것도 가능하다. 3 상태, 3 행위 루이스 신호 게임을 상상해보자. 각 상태는 동등한 확률을 가지고, 정확히 각 상태별로 하나씩의 행위가 적절하다고 가정하자. 시뮬레이션 결과, 호페-포여 모형을 통해 무에서 시작할 때, 100,000 시행 후 만들어진 체계는 5개에서 25개 사이의 신호를 가진 신호 체계이다. | ||
'''(3) 풀링 함정의 회피 :''' 발명이 동반된 강화 학습은 풀링 함정에 빠지지 않는다. 원래의 3-3-3 Roth-Erev 강화학습에서는 9% 정도가 부분 풀링 평형에 빠져 불완전 정보 전달에 이르렀다. 그러나 발명이 동반된 강화 학습에서는 모두가 효율적인 신호 체계에 도달했다. 즉, 더 많은 신호를 발명함으로써, 많은 동의어를 다수 만들어냄으로써, 부분 풀링 함정에 빠지지 않게 된 것이다. 또한 원래의 강화 학습에서는 상태별 확률이 불균등할수록 풀링 함정에 잘 빠졌다(0.9에서는 44%가 완전 풀링 함정에 빠짐). 왜냐하면 신호에 무관하게 원래 빈번한 상태에 맞는 행위를 하기만 하면 되기 때문이다. 따라서 높은 불균등 상태 확률은 효율적 신호 체계 진화의 주된 장벽이다. 그러나 발명이 동반된 강화 학습에서는 이런 극단적 불균등 경우에도 풀링 함정에 절대 빠지지 않았다. 즉, 새로운 신호의 발명 덕분에, 효율적 신호 체계는 훨씬 더 안정적으로 일어나는(robust) 현상이 된다 | * 스크래치로 만든 시뮬레이션 : https://scratch.mit.edu/projects/1132345199 | ||
'''(3) 풀링 함정의 회피 :''' 발명이 동반된 강화 학습은 풀링 함정에 빠지지 않는다. 원래의 3-3-3 Roth-Erev 강화학습에서는 9% 정도가 부분 풀링 평형에 빠져 불완전 정보 전달에 이르렀다. 그러나 발명이 동반된 강화 학습에서는 모두가 효율적인 신호 체계에 도달했다. 즉, 더 많은 신호를 발명함으로써, 많은 동의어를 다수 만들어냄으로써, 부분 풀링 함정에 빠지지 않게 된 것이다. 또한 원래의 강화 학습에서는 상태별 확률이 불균등할수록 풀링 함정에 잘 빠졌다(0.9에서는 44%가 완전 풀링 함정에 빠짐). 왜냐하면 신호에 무관하게 원래 빈번한 상태에 맞는 행위를 하기만 하면 되기 때문이다. 따라서 높은 불균등 상태 확률은 효율적 신호 체계 진화의 주된 장벽이다. 그러나 발명이 동반된 강화 학습에서는 이런 극단적 불균등 경우에도 풀링 함정에 절대 빠지지 않았다. 즉, 새로운 신호의 발명 덕분에, 효율적 신호 체계는 훨씬 더 안정적으로 일어나는(robust) 현상이 된다 | |||
=== 동의어와 망각이 동반된 강화 학습 === | === 동의어와 망각이 동반된 강화 학습 === | ||