Severe Tests and Novel Evidence
Devorah G. Mayo, "Severe Tests and Novel Evidence", in Error and the Growth of Experimental Knowledge (Chicago and London: The University of Chicago Press, 1996), Chapter 8.
메이요는 이 글에서, 존 워럴(John Worrall)과 로널드 기어리(Ronald R. Giere)의 '사용-참신성(use-novelty)' 논변이 잘못되었음을 밝히고, 그에 대한 명백한 반례를 통계학에서 찾은 다음, 과학의 실제 사례(일반상대성 이론에 대한 에딩턴의 일식 관측 증거)에서도 '사용-참신성'이 '엄격한 시험(severe test)을 위해 필요하지도 충분하지도 않다는 것을 보이고 있다.
예비적인 논의
많은 논자들은 다음의 규칙을 주장한다.
- 참신성 규칙(Rule of Novelty) : 증거가 가설 H를 뒷받침하기 위해, H는 그 증거와 일치할 뿐 아니라, 그 증거가 (어떤 의미에서) 새로운(novel) 것이어야 한다.
위의 규칙에 대해 많은 논쟁(밀 대 퍼스, 밀 대 휴얼, 케인즈 대 포퍼)이 있어왔는데, 메이요는 참신성에 대한 직관 이면에 '엄격한 시험'의 문제가 있음을 보이는 한편, 참신성과 엄격성이 항상 함께 가지는 않는다는 것을 보이고자 한다. 즉 엄격하지 않은 참신힌 시험도 있고, 참신하지 않는 엄격한 시험도 있다는 것이다.
역사를 검토하면 RN에 위배되지만 증거로 간주되는 사례들이 많다. 스테판 브러쉬(Stephen Brush, 1989)는 예측에 대한 강조가 이론가와 관측가에 대한 이중잣대를 함축하고 있다고 말하기도 한다. 즉, 새로운 이론이 알려진 사실과 일치한다고 의심한다면, 새로운 관찰 결과에 대해서는 알려진 이론적 예측과 일치한다고 왜 의심하지 않는가?
입증을 가설과 증거 사이의 논리적 관계로 파악하는 밀이나 헴펠 등은 가설과 증거의 시간적 선후관계를 중요치 않게 생각한 반면, 입증이나 시험이 이루어지는 역사적 조건을 추가적으로 고려하는 포퍼 및 포퍼의 추종자들은 그 당시의 배경지식을 중시하게 된다. 특히 그 배경지식은 참신성 원리와 같은 방법론적 원리들을 통해 들어온다. 그들의 포퍼식 직관은 "진정한 입증은 오직 가설을 반증하려는 진정한 시도, 즉 엄격한 시험의 실패에서만 온다"는 것이다.
세 가지 종류의 참신성이 제안되었다. (1) 시간적 참신성, (2) 사용 참신성, (3) 이론적 참신성. 그 중 시간적 참신성은 여러 문제로 인해 주관성/상대성 문제, 실제 사례와의 불일치, 그에 대한 인식론적 근거 부족 모두에 의해 보통 거부되었고, 사용참신성이 유력한 대안으로 제기되었다.
- 자하(Zahar 1973): 어떤 사실은 "주어진 가설의 구성을 관장한 문제 상황에 속해 있지 않았다면, 그 가설에 대해 참신하다."
- 워럴(Worrall 1978): 문제는 이론이 어떤 사실을 "설명하기 위해 고안되었는지"가 아니라 그 사실이 이론을 "구성하는 데 사용되었는지"이다. ... "[경험적 뒷받침]의 관계는 사실적 진술이 이론에 의해 함축되지만 그 이론의 구성 과정에서 사용된 사실적 진술의 집합의 일원이 아닐 경우 오직 그 경우에만 보장된다."
이를 메이요는 다음과 같이 변경하여 재정식화한다 : 좋은 시험은 다음의 경우에 만족된다.
- H가 e를 함축하거나 잘 맞아떨어진다.
- 사용-참신성 UN : e는 H의 구성 과정에 사용되지 않았다.
사용-참신성은 보통 필요조건으로 간주되며, 그 위반은 자료의 중복사용(double-use) 또는 중복세기(double-counting)으로 보통 얘기된다. 만약 증거가 H에 도달하는 데 사용된다면, 그것은 H의 뒷받침용으로 다시 사용될 수 없다. 짧게, 증거 e를 만족하도록 구성된 가설을 '사용-구성된 가설'이라고 부르자. 그러면 시험에서의 사용-참신성 조건은 다음과 같이 재구성된다.
- UN 필요조건 : 사용-구성된 가설 H에 도달하는 데 사용된 자료 e는 또다시 H의 좋은 시험으로 간주될 수 없다.
그에 대한 직관은 다음과 같다.
- 만약 가설 H가 자료 e에 일치하도록 만들어졌다면, 그 똑같은 자료는 가설 H에 대한 좋은 시험(또는 좋은 뒷받침)을 제공할 수 없다. 왜냐하면 H는 이 시험에 실패할 수 없었기 때문이다.
보통 UN 조건 위반으로 간주되는 세 가지 경우 : (1) 매개변수 정하기 (2) 예외 금지 혹은 끌어들이기 (3) 제약조건으로서의 증거. (상호 배타적인 것은 아님)
흥미롭게도 똑같은 경우에 대해서 사용참신성 논자들의 판정은 일치하지 않는다. 예를 들어, 프레넬은 직선 모서리에서의 회절에 대한 실험 자료를 설명하기 위해 자신의 가설을 고안했는데, 그 가설은 워럴에게 사용-참신한 가설인 반면, 기어리에게는 사용-구성된 가설로 간주된다. 즉 여전히 '사용-참신한' 증거, '사용-구성된' 가설의 기준은 모호한 상태이다.
워럴과 기어리의 '사용-참신성' 논변에 대한 메이요의 반론
둘의 '사용-참신성' 논변은 모두 '사용-구성된(use-constructed)' 가설이 '엄격한 시험'을 통과하지 못한다는 암묵적인 논변에 의존하고 있다. 그들의 논변은 조금 다르지만 메이요 식으로 재구성하자면 아래와 같다.
- 가설 h를 만드는 데 e가 사용되었다면, 그 가설 h는 당연히 e와 잘 일치할 수밖에 없다.
- 따라서 e와의 일치에 의존하는 시험 절차는 h가 거짓이더라도 그것을 거부할 가능성이 애초에 없다.
- 거짓인 가설을 거부할 가능성이 적은 시험은 엄격한 시험으로 간주될 수 없다.
- 따라서 가설 h를 만드는 데 사용된 e와의 일치에 의존하는 시험은 엄격한 시험이 될 수 없다. 즉, e는 h의 증거로 간주될 수 없다.
짧게 말하자면, 그들은 "사용-구성된 가설 시험은 그것의 통과가 보장되기 때문에 피해야 한다"는 것이다. 그러나 메이요에 따르면, 엄격한 시험을 위해 중요한 것은 그 통과가 보장되는지 여부(A)가 아니라 문제 있는 통과가 보장되는지 여부(B)이다. 분명 사용-구성된 가설의 시험이 사용된 자료에 의한 시험을 통과하는 것이 보장되더라도, 그것으로부터 문제있는 가설이 그 시험을 통과한다는 것이 보장된다는 것이 따라나오진 않는다. 많은 사용-참신성 논자들은 A와 B를 혼동하는 오류를 범했다.
내식으로 정리하자면,
P(pass) = P(h is True)P(pass|h is True) + P(h is False)P(pass|h is False)
h가 사용구성된 가설일 경우, 사용 구성 시험 절차를 통과할 확률 P(pass)=1이지만, P(pass|h is False)=1이란 것이 따라나오진 않는다는 것이다. 사용-참신성 논자들은 P(pass)와 P(pass|h is False)를 혼동하는 오류를 범했다.
'사용-참신성' 조건의 필요성에 대한 명백한 반례
- 학생들의 SAT 성적자료 e를 통해, 그 평균이 1121이란 사용구성된 가설 H(e)를 얻었다고 해보자. 이 가설은 그 구성과정에서 사용된 자료들을 당연히 만족한다. 그렇다고 이 자료만으로는 가설에 대한 증거가 충분치 않다고 말할 사람은 없다. 가설은 e로부터 연역적으로 도출되었기 때문이다. 잘못된 가설이 이 시험을 통과할 가능성은 없기 때문에, H는 e를 이용한 최대로 엄격한 시험(maximally severe test)을 통과한다.
- 표본조사(e)를 통해, 모집단의 비율이 e±ME라는 가설을 세웠다고 해보자. 분명 이 가설을 구성하는 데 자료가 사용되었고, 그 가설과 자료의 일치는 완벽하게 보장된다. 즉 P(pass)=1. 그러나, 이 경우, 잘못된 가설이 이 시험을 통과할 가능성은 있더라도 무척 낮기 때문에, H는 e를 이용한 고도로 엄격한 시험(highly severe test)을 통과한다.
함께 보기
Deborah G. Mayo, Error and the Growth of Experimental Knowledge (Chicago and London: The University of Chicago Press, 1996).
- Learning from Error
- Ducks, Rabbits, and Normal Sciences: Recasting the Kuhn's Eye View of Popper
- The New Experimentalism and the Bayesian Way
- Duhem, Kuhn, and Bayes
- Models of Experimental Inquiry
- Severe Tests and Methodological Underdetermination
- The Experimental Basis from Which to Test Hypotheses: Brownian Motion
- Severe Tests and Novel Evidence
- Hunting and Snooping: Understanding the Neyman-Pearson Predesignationist Stance
- Why You Cannot Be Just a Little Bit Bayesian
- Why Pearson Rejected the Neyman-Pearson (Behavioristic) Philosophy and a Note on Objectivity in Statistics
- Error Statistics and Peircean Error Correction
- Toward an Error-Statistical Philosophy of Science