설명주의 vs. 예측주의
설명주의는 가설에 의한 기존 자료의 설명도 새로운 예측만큼 가설에 대한 좋은 증거가 될 수 있다고 주장하는 반면, 예측주의는 가설의 새로운 예측만이 가설의 증거이거나 기존 자료의 설명보다 상대적으로 더 좋은 증거라고 주장한다.
SEP 입증 항목의 소개
- http://plato.stanford.edu/entries/confirmation/#ExtHDMen
- 순진한 가설연역주의의 문제 : 너무 방만. 너무 많은 것을 증거로 허용.
- HD 예측주의 : 새로운 예측의 결과만을 증거로 인정하자! (포퍼)
- HD 예측주의의 약점 : too restrictive! 적법한 증거의 범위를 너무 줄이는 듯함. 특히 old evidence의 문제(e.g., 수성의 세차 운동이 아인슈타인의 일반상대성 이론에 대한 증거가 되는 문제). 또한 시간적 순서가 증거와 무슨 관련이 있단 말인가라는 고전적인 문제제기도 있음.
naive HD와 엄격한 HD 예측주의 사이의 여러 해법들
- HD + use-novelty : 가설을 만드는 데 사용되지 않았다는 의미에서 '새로운' 예측이 성공할 때만 그 예측은 가설에 대한 증거로 인정될 수 있다. 이에 따르면, 가설이 만들어지기 이전에 알려진 자료라도 가설을 만드는데 사용하지 않았던 것이라면, 그 자료가 가설에 의해 설명된다면 가설의 증거로서 채택될 수 있다. 가장 유력한 해결책으로 많은 논의가 이루어지고 있으며, 세부적인 개선책과 비판들이 나오고 있음.
- HD + eliminativism : h가 거짓이라면 e가 나올 가능성이 충분히 적을 경우에만 e를 증거로 인정하자! 즉 e는 h에 대한 대안들을 제거해줄 경우에만 e의 증거로 인정될 수 있다. 실험과 통계에서는 잘 작동. 그러나 가설의 공간이 너무 넓은 경우에까지 잘 적용될 수 있는지는 불분명함.
- HD + simplicity에 기대는 방법 : 단순성 관념 너무 모호.
- HD + explanation : '최선의 설명으로의 추론' 견해 채택. 주로 large-scale theories나 high-level kinds of evidence에 주목. 그러나 '설명' 개념 아직도 불분명.
Giere의 '적절한 시험(appropriate test)'
- Giere (1983), "Testing Theoretical Hypotheses", section 5, 6을 보라.
이론적 가설의 "적절한" 시험의 기준 : "적절한" 시험이란 우리에게 올바른 결론을 이끌 (무엇보다?) 보다 높은 확률을 가지고 있는 것이어야 한다. "an "appropriate" test would be one that has higher probabilities for leading us to the correct conclusion."(p. 278) 이 기준을 적용해보자. 현상을 구제하는 가설만을 참으로 보는 시험 절차의 경우, 이 시험을 통해 우리는 참인 가설을 거짓으로 볼 위험은 없음. 그러나 거짓인 가설을 참으로 볼 가능성이 있다. 현상을 구제하는 거짓된 가설이 무한히 많다고 볼 때, 그 가능성은 상당히 클 수도 있다. 따라서 우리에겐 거짓인 가설이 거부될 가능성을 높이는 시험 절차가 필요하다. "적절한 시험이란 우리가 참인 가설은 참으로 수용할 뿐 아니라 거짓인 가설은 거짓으로 거부하도록 이끌 적절히 높은 확률을 가진 절차"로서 특징지을 수 있음(p. 278). 바꿔 말하면, "가설에 대한 적절한 시험이란 거짓인 가설을 수용하거나 참인 가설을 거부하도록 이끌지 않을 것 같은 절차이다"(p. 278).
이러한 '적절한 시험'의 기준에 비추어,
- 참이든 거짓이든 상관없이 시험을 통과하지 못하기 쉽다면 좋은 시험 아님.
- 참이든 거짓이든 상관없이 시험을 통과하기 쉽다면 좋은 시험 아님.
그러나 과학자가 어떤 자료를 설명하기 위해 가설을 만들었다면, 그렇게 만들어진(혹은 선택된) 가설이 그 자료를 설명하지 못할 가능성은 없다. 즉 그 가설이 참이든 거짓이든 상관없이, 그 가설은 무조건 그 자료를 설명하는 데 성공할 것이다. 따라서, (가설을 선택하는 데 사용된) 그 자료를 설명할 수 있다는 것은 가설에 대한 '적절한 시험'이 될 수 없다.
역사적 사례를 들어보자.
프레넬은 원래 직선 모서리에서 일어나는 잘 알려진 회절 현상을 설명하기 위한 파동 이론에 입각한 가설을 세웠고, 그의 가설의 예측은 자료와 아주 잘 일치했다. 그러나 심사위원회는 그것을 충분한 증거로 받아들이지 않았다. 왜? 프레넬은 당연히 직선 모서리에서의 회절 패턴을 산출하지 않는 모형은 애초에 배제했을 것이고, 그런 방식으로 선택된 모형은 어떤 모형이든, 참이든 거짓이든, 직선 모서리에서의 회절 패턴을 잘 설명할 것이다. 따라서 직선 모서리에서의 회절 패턴은 프레넬의 가설에 대한 적절한 시험이 될 수 없다. (즉 심사위원회의 판단은 근거가 있었다.)
심사위원회에서는 원형 그림자 한 가운데에 밝은 점이 나타나는지를 시험으로 채택했는데, 그 점은 적절한 시험이 될 수 있다. 왜냐하면, 그 점은 프레넬도 심사위원들도 몰랐던 현상으로, 프레넬의 가설이 그 시험을 통과할지 여부는 사전에 결정되어 있지 않았기 때문이다. 즉 직선 모서리 회절 패턴처럼 프레넬의 가설이 거짓이라도 통과될만한 시험이 아니란 것이다. 게다가 그 현상은 일어날 법하지 않은 것으로 간주되었던 것으로 특별히 선택되었는데, 때문에 이 시험을 통과하기란 극히 낮았고, 따라서 프레넬의 가설이 거짓이라면 거의 확실히 이 시험을 통과하지 못했을 것이다. 즉 일반적인 회절 현상에 대해 거짓인 가설이 이 시험을 통과할 가능성은 매우 낮다.
새로운 예측(novel prediction)의 역할 : 그냥 예측이 아니라 새로운 예측이 중요하다. 알려진 것을 또 한번 예측하는 것은, 가설이 참이든 거짓이든 상관없이 통과할 것 같은 시험이기에 좋은 시험이 아니다. 시간적 순서의 문제는 아니다. 그 현상이 이미 알려져 있어서 심사위원은 알고 있었더라도, 프레넬이 원형 그림자의 밝은 점을 몰랐다면, 그 점은 적절한 시험이 될 수 있다. 그러나 프레넬이 그 현상을 알고서 모형을 선택하는 데 사용했다면, 그 현상은 프레넬의 가설에 대한 적절한 시험이 될 수 없었을 것이다. (모형을 선택하는 데) 그 현상을 사용하지 않았다면? 그렇다면 괜찮겠지만, 알고 있는 자료가 모형의 선택압으로 존재하지 않았다는 것은 확신하기 무척 어렵다. 따라서 아예 몰랐던 것에 대한 예측을 선호하는 것은 그것이 꼭 필요한 것은 아닐지라도 건전한 방법론적 규칙이다.
"가설을 엄격하기 시험하기 위해서는 그것을 정말로 반박하기 위해 노력해야 한다"는 포퍼의 통찰 : 그는 좋은 시험의 한 가지 측면을 강조한 셈. 시험의 질은 가설의 선택 과정뿐 아니라 예측의 선택 과정도 유관하다. 그 선택 과정은 (가설이 거짓이라면) 가설의 거짓됨을 드러낼 수 있을 것 같은 예측을 고르는 과정일 것이다. 포아송과 같은 유능한 과학자가 프레넬의 가설로부터 거짓일 것 같은 예측을 찾아냈다면, 그것은 그 시험이 (프레넬의 가설의) 잘못된 귀결을 발견할 높은 확률을 가지고 있다고 생각할만한 좋은 이유가 된다.
Mayo의 '엄격한 시험(severe test)'과 사용적-새로움(use-novelty)
- Mayo, Deborah G. (1996), Error and the Growth of Experimental Knowledge, Chicago and London: The University of Chicago Press. (특히 6장, 8장)
- Iseda, Tetsuji (1999), "Use-Novelty, Severity and a Systematic Neglect of Relevant Alternatives", Philosophy of Science 66, S403-S413.
데보라 메이요는 이론 구성에 사용된 자료도 (때로는) 엄격한 시험에 사용될 수 있다고 주장한다. 여기서 '엄격성'은 아래와 같이 정의될 수 있다(Iseda 1999).
(SC*) The severity criterion for a "pass-fail" test: There is a very high probability that the test procedure T fails H, given that H is false. [H가 거짓이라면, H가 시험 절차 T를 통과하지 못할 확률이 매우 높다]
그 확률은 '엄격성'의 정량적인 지표로도 활용될 수 있다. 즉 그 값이 1이면, 그 시험 절차는 최대로 엄격한 시험이 되고, 그 값이 0이면, 전혀 엄격하지 않은 시험이 된다.
기어리는 사용적-새로움(use-novelty)이 엄격한(적절한) 시험을 위해 필요하다고 주장하지만, 메이요는 사용적-새로움이 엄격성과 논리적으로 무관하다는 것을 보이고자 한다.
기어리의 논변은 아래와 같이 재구성될 수 있다.
- 가설이 거짓이더라도 통과할 가능성이 높은 시험은 가설에 대한 적절한 시험이 될 수 없다.
- 만약 어떤 자료가 가설의 구성에 사용되었다면, 그 가설은 참이든 거짓이든 상관없이 그 사용된 자료를 설명하는 시험을 통과할 것이다. 즉 그 가설이 거짓이더라도 그 시험에 통과할 확률은 매우 높다(거의 1).
메이요는 1에 동의하지만(그것은 메이요의 '엄격한 시험' 기준과 똑같다), 2에는 동의하지 않는다. 이를 보이기 위해 메이요는 다음의 두 가지 확률을 구분한다.
- A. 사용-구성된 시험절차가 자신이 시험하는 가설을 통과시킬 확률 P(pass)
- B. 사용-구성된 시험절차가 자신이 시험하는 가설을 통과시킬 확률 P(pass|h is False)
메이요는 기어리가 엄격히 다른 A와 B를 혼동하는 오류를 범했다고 주장한다. 그러나 다음의 식이 가능하다고 해보자.
P(pass) = P(h is True)P(pass|h is True) + P(h is False)P(pass|h is False)
그러면 좌변이 1인 경우, P(h is False)가 0이 아니라면, P(pass|h is False) 역시 1이어야 한다. 즉 위의 계산방법을 허용할 경우, A와 B의 구분은 P(h is False)일 때에만 가능하다는 결론이 나온다.
Iseda(1999)는 아래와 같은 행렬을 그려 설명한다.
H is correct | H is false | |
---|---|---|
T passes H | C1 | C2 |
T fails H | C3 | C4 |
이 그림에 따르면, A와 B가 불일치하는 경우는 C2와 C4가 모두 비어있을 때뿐이다.
사례 1 : SAT 평균 점수 가설
학생들의 시험성적 자료(x1~xn)를 이용하여 평균성적이 (x1+…+xn)/n이라는 가설을 세웠다면, 그 자료는 가설 구성에 사용되었지만 매우 좋은 증거가 된다. 분명 이 사례는 사용적-새로움이 증거의 필요조건이라는 주장의 좋은 반례로 보인다. 그러나 이를 메이요의 '엄격성' 기준을 이용해 평가해보자.
- P(pass) = 1
- P(h is False) = 0
- P(pass|h is False) = 0/0 (위의 행렬에 따르면, C2=0, C4=0)
- P(pass|h is False) = 아무 값이든 상관 없음 (위의 계산식에 따르면)
- P(pass|h is False) = 0 (h가 false인 가상의 상황을 가정했을 때, 그러한 자료가 나올 가능성이 있는지를 상상해볼 경우)
- 즉 이 시험의 엄격성은, 위의 행렬을 따르자면 이 시험의 엄격성은 0/0을 어떻게 정의하느냐에 따라 달려있게 되고, 계산식을 따르자면 정해지지 않고, h가 false인 가상의 상황을 가정했을 때를 보면 1이 된다.
메이요의 입장은 당연히 마지막이 될 것이다.
사례 2 : 신뢰구간 가설
표본빈도 f를 이용해 모집단의 실제 비율(p)이 f±2SD 안에 있다는 가설을 세웠다면, 그 표본 빈도 자료는 가설 구성에 분명히 사용되었지만 매우 좋은 증거가 된다. 따라서 이 사례 역시 사용적-새로움이 증거의 필요조건이라는 주장의 좋은 반례로 보인다. 그러나 이를 또다시 메이요의 '엄격성' 기준을 이용해 평가해보자.
- P(pass) = 1
- P(h is False) ≠ 0
- 따라서 P(pass|h is False) = 1 (계산식이나 행렬에 따르면 이런 값이 나와야 함)
그러나 이는 메이요의 의도가 아닐 것이다. 그에 따르면 만약 추정구간 H가 참이 아니라면(즉 실제 비율이 정말로 f와 두 표준편차 이내에 있지 않다면), H와의 그렇게 잘 들어맞는 일이 일어나는 것은 드문 일이다. 따라서 H가 통과하는 데 있어서 엄격성은 높다.
(사실 애초에 메이요는 위의 계산식이나 행렬을 부정했을 것이다.)
이를 이해하기 위해, Iseda는 다음의 세 가지 해석 가능성을 제시한다.
- (SC*-1) There is a very high probability that the test procedure CI fails H(e), given that H(e) is false.
- (SC*-2) There is a very high probability that the test procedure CI fails H(x) constructed in each case, given that H(x) is false in that case.
- (SC*-3) There is a very high probability that the test procedure CI fails H(e) when the obtained sample proportion is e, given that H(e) is false.
2,3번 해석은 P(A)=P(B)=1로 만든다. 왜냐하면 일단 자료가 주어지고 나면, h가 거짓이라도 h는 자료와 잘 조응할 것이기 때문이다.
반면 1번 해석에서는 H(e)가 거짓이라는 조건에서 (새로운) 시험 절차가 H(e)와 잘 맞아떨어질 확률을 묻고 있다. 이 값은 분명 1이 아니다. H(e)가 거짓인 모집단에서 (다시 한번) random sampling을 통해 얻은 자료가 H(e)와 들어맞을 가능성은 무척 낮다. 예컨대, 표본빈도가 0.5가 나왔을 때, 우리는 모집단의 실제 비율이 0.5+-2SD 안에 있을 것이라고 가설을 세운다. 그러나 만약 모집단의 실제 비율이 0.5±2SD 바깥에 있다면, 새롭게 표집한 자료의 표본 빈도가 0.5일 가능성은 무척 낮을 것이다.
분명 메이요는 이러한 해석을 태할 것이다. 그러나 이 해석 하에서는 P(pass) 역시 1이 아니게 됨으로써, 메이요가 확률 A와 B의 구분을 이용한 반론은 논점을 잃어버리게 된다.
함께 보기
- Giere (1983), "Testing Theoretical Hypotheses", section 5, 6을 보라.
- Mayo, Deborah G. (1996), Error and the Growth of Experimental Knowledge, Chicago and London: The University of Chicago Press. (특히 6장, 8장)
- Iseda, Tetsuji (1999), "Use-Novelty, Severity and a Systematic Neglect of Relevant Alternatives", Philosophy of Science 66, S403-S413.