편집
1,153
번
| 41번째 줄: | 41번째 줄: | ||
'''(3) 일반 원리''' : 자연이 행위자에게 새로운 상태(e.g., "개와 사냥꾼")를 제공하고, 새로운 상태의 출현이 (e.g., 한 원숭이가 총에 맞아) 확립되고, 적절한 새로운 회피 행위가 집단 내에서 시행착오를 통해 발견된다. 일단 새로운 행위와 새로운 행위를 가지게 되면, 정보 병목의 상황에 처하고, 새 신호의 발명이 요구된다. 송신자에게 많은 잠재적 가용 신호가 있고, 그들 중 하나를 시도하고, 수신자는 행위를 시도한다. 행운의 일치는 보상을 받는다. 일반 원리를 말로 진술하는 것은 어렵지 않지만, 분석을 위해 모형을 구성하여 살펴볼 필요가 있다. | '''(3) 일반 원리''' : 자연이 행위자에게 새로운 상태(e.g., "개와 사냥꾼")를 제공하고, 새로운 상태의 출현이 (e.g., 한 원숭이가 총에 맞아) 확립되고, 적절한 새로운 회피 행위가 집단 내에서 시행착오를 통해 발견된다. 일단 새로운 행위와 새로운 행위를 가지게 되면, 정보 병목의 상황에 처하고, 새 신호의 발명이 요구된다. 송신자에게 많은 잠재적 가용 신호가 있고, 그들 중 하나를 시도하고, 수신자는 행위를 시도한다. 행운의 일치는 보상을 받는다. 일반 원리를 말로 진술하는 것은 어렵지 않지만, 분석을 위해 모형을 구성하여 살펴볼 필요가 있다. | ||
=== 중국 식당 과정과 === | === 중국 식당 과정과 호페-포여 항아리 모형 === | ||
중국 식당 과정이란 (N+1)번째 손님이 기존 손님 옆에 앉을 확률이 1/(N+1), 새로운 테이블에 (1명의 유령 손님 옆에) 앉을 확률이 1/(N+1)인 단순한 과정을 의미한다. 1번 손님은 1번 테이블에 앉고, 2번 손님은 1/2의 확률로 1번 테이블 또는 2번 테이블에 앉는다. 만약 1,2번 손님이 모두 1번 테이블에 앉을 경우, 3번 손님은 2/3의 확률로 1번 테이블에 앉거나 1/3의 확률로 2번 테이블에 앉는다. 이런 방식으로 손님이 들어올 때마다 동일한 확률로 기존 손님 옆 또는 새로운 테이블에 계속 배정될 경우, 필요한 테이블의 수는 대체로 손님 수의 로그를 따라 아주 천천히 증가한다. | 중국 식당 과정이란 (N+1)번째 손님이 기존 손님 옆에 앉을 확률이 1/(N+1), 새로운 테이블에 (1명의 유령 손님 옆에) 앉을 확률이 1/(N+1)인 단순한 과정을 의미한다. 1번 손님은 1번 테이블에 앉고, 2번 손님은 1/2의 확률로 1번 테이블 또는 2번 테이블에 앉는다. 만약 1,2번 손님이 모두 1번 테이블에 앉을 경우, 3번 손님은 2/3의 확률로 1번 테이블에 앉거나 1/3의 확률로 2번 테이블에 앉는다. 이런 방식으로 손님이 들어올 때마다 동일한 확률로 기존 손님 옆 또는 새로운 테이블에 계속 배정될 경우, 필요한 테이블의 수는 대체로 손님 수의 로그를 따라 아주 천천히 증가한다. | ||
[[파일:호페-포여 항아리 모형에서의 기대 범주 개수.jpg|섬네일|호페-포여 항아리 모형에서의 기대 범주 개수. 시행 횟수의 로그에 비례한다.]] | |||
이러한 중국 식당 과정은 호페-포여 항아리 모형(Hoppe-Pólya urn model)과 동등하다. 고전적 포여 항아리에서는 항아리에서 공 하나를 꺼내볼 때마다 그 공과 같은 색의 공을 하나 더 집어넣는다(이는 색깔에 따른 보상이 모두 동일한 강화 학습임). 이 과정은 어쨌든 어딘가로 수렴하게 되어 있다. 호페는 여기에 검은 공(돌연변이자)을 추가하여, 검은 공이 나올 때면 항아리에 없던 새로운 색의 공을 하나 추가하도록 했다. 이 과정을 통해 우리는 다양한 개수의 범주로 이루어진 무작위 분할을 얻게 되며, 이 분할은 분할 교환가능성(partition exchangeability)라는 특성을 가진다. | |||
유한한 수의 뽑기 시도 후의 기대 범주 개수(호페 항아리의 색깔 수 또는 중국 식당의 테이블 수)는 송신자가 보내는 신호의 종류 수와 대응되며, 이는 로그 스케일로 증가한다. 한편, 동일한 색깔 수(테이블) 수, 동일한 시행 횟수(손님 수)이라도, 서로 다른 분할이 가능하다. 2종류의 색깔, 10개의 공은 다섯 가지 분할을 가진다. 5+5, 4+6, 3+7, 2+8, 1+9. 분할별 확률은 불균등할수록 더 커진다. 마지막으로, 호페-포어 항아리는 포여 항아리들 사이의 이동으로도 묘사될 수 있다. 검은 공이 나올 때마다, 인접한 다른 항아리에 기존 공과 새로운 공을 집어넣고 게임을 다시 시작하는 것이다. 즉, 이는 게임 사이의 이동인 셈이다. | |||
=== 발명이 동반된 강화 학습 === | |||
== 관련 항목 == | == 관련 항목 == | ||