베이즈 확률론 (Bayesian probability)은 베이즈 정리를 바탕으로 한 확률 해석에 기반한 확률론이다.[1] 확률을 일어날 수 있는 모든 경우의 수를 알고 있는 상태에서 특정한 조건의 사건이 일어날 경우의 빈도를 계산하는 고전적인 확률의 정의와 달리, 베이즈 확률론은 어떠한 사건이 일어날 것이라는 합리적 기대의 척도로 해석한다.[2] 이에 따라 베이즈 확률론이 다루는 확률은 어떠한 지식에 대한 신뢰나 논리적 추론의 결과로 해석된다.[3]
베이즈 확률론은 어떤 사건이 일어날 확률을 구하기 위해 선험적인 가설로 설정된 사전 확률을 일정한 데이터를 통해 보완한 사후 확률로서 보정한다. 사전 확률은 아직 검증되지 않은 주관적 믿음이지만 이후 보정을 거쳐 되먹임 되기 때문에 점차 정확도가 향상된다. 한편 사후 확률은 일어난 사건의 결과를 놓고 그 결과가 나오게 된 원인을 생각하는 역방향의 확률이다. 즉 사건의 결과에서 애초의 표본 공간을 추정하는 작업이 된다. 따라서 사후 확률은 단독으로 확인할 수 없고 원인에 대한 가설과 결과 사이의 조건부 확률로 나타낼 수 밖에 없다.[4]
베이즈 확률론의 확률 해석은 참값을 알지 못하는 가설을 검증하는 명제 논리의 확장으로 이해될 수 있다.[5]
확률의 해석에는 도수 확률과 같이 시행을 통해 사건의 빈도를 측정하는 객관주의 해석과 베이즈 확률론과 같이 선험적 확률을 먼저 설정하는 주관주의 해석이 있다.[6] 베이즈 확률론은 주관주의 확률 해석의 표준으로 자리잡았다.
베이즈 확률론이라는 이름은 18세기 개신교 목사이자 수학자였던 토머스 베이즈에서 온 것이다.[7]:131 토머스 베이즈는 과거에 사건이 일어난 횟수 또는 일어나지 않은 횟수 만을 근거로 미래의 불확실한 사건의 확률을 알고자 하였다. 탁자 위에 구르는 공의 위치를 추정하는 사고 실험을 통해 처음에는 공의 위치를 알 지 못하여도 시행 착오를 통해 점차 정확한 위치를 추정할 수 있음을 보였다.[8]:26-27 베이즈는 자신의 이러한 추론을 훗날 포기하였으나 훗날 라플라스가 독자적으로 재발견하였다.[7]:97–98
개요
동전 던지기나 주사위 던지기와 같이 각 사건이 독립이건 아니면 로또 6/45와 같이 종속적 사건이건 상관 없이 표본 공간과 확률 변수가 잘 정의되어 있고 모든 경우의 수를 헤아리기 쉽다면 고전적 확률 계산으로도 충분히 정확한 확률을 계산할 수 있다. 그러나 표본 공간의 크기를 짐작하기 어렵거나 확률 분포가 모호한 경우 이러한 방법으로 사건의 확률을 알아낼 수는 없다. 예를 들어 한 국가나 사회의 교통사고는 얼마나 일어날까? 교통사고는 차량의 수, 교통량, 도로의 구조 등 복잡한 원인이 얽혀 있고 표본 집단을 설정하는 것 조차 쉽지 않아 고전적인 확률 해석으로 구하기는 불가능하다. 그러나 베이즈 확률론의 방법으로는 선험적 사전 확률과 데이터에 의한 보완을 통해 교통사고가 일어날 기대값을 추정할 수 있다.[9]
게임이나 도박과 등의 특수한 경우가 아니라면 세계에서 일어나는 대부분의 사건들은 결과만이 주어져 있을 뿐 그것의 원인이 되는 확률 변수나 사건들의 확률 분포가 명확하지 않다. 이 때문에 베이즈 확률론은 각종 과학 분야와 통계에서 실용적인 문제 해결의 방법으로 쓰인다. 어떠한 사건에 대한 가설을 설정하면 베이즈 확률론은 그 가설이 참일 가능성을 계산할 수 있다. 이를 가능도라고 한다.[10]
서로 종속인 사건 A와 B가 있다고 하자. 사건 A가 일어날 확률은 로 나타낼 수 있고 사건 B가 일어날 확률은 로 나타낼 수 있다. 이때 사건 B가 관측되었을 때 그 원인이 사건 A일 확률은 조건부 확률 가 된다. 한편 사건 A가 주어졌을 때 사건 B가 나타날 조건부 확률은 이다. 이제 B가 나타났을 때 A가 그 원인이 되는 조건부 확률 는 다음과 같이 정리될 수 있다.[12]
위 식에서 와 를 모두 알고 있다고 하더라도 는 가능도의 설정을 통하여 정할 수 밖에 없기 때문에[13] 베이즈 확률론은 주관적 해석을 거칠 수 밖에 없다. 그러나 베이즈 추론을 통하여 사후 확률을 사전 확률로 갱신하고 반복적인 계산을 수행하면 현실에 부합하는 합리적인 가능도를 추론할 수 있다.
객관주의와 주관주의
베이즈 확률론은 크게 보아 두 가지 관점에서 해석할 수 있다. 객관주의적 해석으로 콕스 정리는 확률을 동일한 정보와 규칙을 사용하는 누구나(심지어 로봇이라도) 합리적 예측으로 수량화시킬 수 있는 것으로 파악한다. 이에 따르면 확률은 논리의 확장이다.[14][15] 한편 확률을 개인적 믿음과 결부하는 주관주의적 해석이 있다.[16] 주관주의적 해석은 확률을 도출한 과정이 얼마나 합리적이었는지 그리고 일관성을 갖추었는 지에 따라 개인마다 차이를 보일 수 있다. 주관주의적 해석은 결정 이론과 데 피네티 정리에 따라 정당화 되지만 사기 도박에서 탄을 사용하는 것과 같은 상황에서 잘못 판단할 위험이 있다.[16]
이처럼 베이즈 확률론은 확률을 구하는 과정의 정합성을 보는 객관주의적 해석과 그 결과에 대한 신뢰를 평가하는 주관주의적 해석을 바탕으로 한다. 이 때문에 베이즈 확률론은 종종 잘못된 믿음마저 정당화 할 수 있다는 비판을 받는데, 예를 들어 누군가 정육면체 주사위를 던져 3이 나올 확률을 1⁄6이 아니라 5⁄6로 생각한다고 하더라도 그의 주관을 비난할 수 없지 않느냐는 주장이 있다. 물론 이런 믿음으로 게임을 하는 사람은 반드시 패할 수 밖에 없다.[17] 그러나 주관주의 확률 해석은 선험적 사전 확률의 설정에 그치는 것이 아니라 시행의 과정에서 역확률을 다시 계산함으로써 사전 확률을 조정하는 것이 더 중요하기 때문에 일회적 오류만으로 베이즈 확률론을 부정하는 것은 의미가 없다.
역사
토머스 베이즈에 의해 시작된 베이즈 확률론은 오랜 세월 동안 잊혀졌다 다시 발견되기를 반복하였다. 그 사이 베이즈는 잊혀졌으며 이론의 이름마저 정립되지 않아 "역확률 이론" 등의 여러 이름으로 불렸다. 1950년대에 이르러 베이즈 정리가 정립된 이후에야 베이즈 확률론이라는 이름도 정착되었다.[8]:37
토머스 베이즈는 자신의 발견을 〈우연의 원리로 가장 어려운 문제 가운데 하나를 해결하는 불완전한 해법〉이라는 논문으로 정리하여 두었으나 생전에 발표하지는 않았다. 베이즈와 평소 친분이 있던 리처드 프라이스는 베이즈 사후에 유족들의 요청으로 베이즈가 남긴 저작물을 살피다가 이 논문을 발견하였고 이것이 데이비드 흄의 논리실증주의에 대한 반박으로 쓰일 수 있음을 간파하였다. 베이스의 논문을 살펴 본 프라이스는 보다 엄밀한 논리를 사용하고 베이즈의 여러 오류를 바로 잡은 뒤 1763년 왕립학회에 베이즈의 이름으로 〈우연의 원리로 문제를 해결하는 방법에 대한 소론〉(An Essay towards solving a Problem in the Doctrine of Chances)을 발표하였다.[8]:33-35[18] 이 논문은 한 가지 사례에서 베르누이 시행을 통한 베타 분포를 분석하여 확률을 구하는 방법을 서술하고 있다. 그러나 베이즈의 이 논문은 그다지 큰 반향을 이끌어 내지 못하였고 베이즈의 발견은 잊혀졌다.
1749년 태어난 피에르 시몽 라플라스는 계몽주의 시대의 핵심 인물 가운데 한 명이다. 그는 뉴턴 역학과 천체 관측 값 사이의 차이를 메울 방법으로 확률 해석에 주목하였다. 뉴턴 역학에 따른 행성 위치 예측의 정확도는 그간 관찰되어 온 관측 기록에 의존하였다. 라플라스 당시 유럽에서 사용된 관측 기록은 기원전 1100년 무렵 중국 상나라의 기록부터 기원전 600년 무렵 칼데아인의 기록, 기원전 200년 무렵 고대 그리스의 기록, 기원전 100년 무렵의 고대 로마의 기록까지 다양하였는데 각 기록의 정확도가 서로 달랐기 때문에 이를 모두 동일한 수준에서 받아드릴 수는 없었다. 또한 각 기록을 바탕으로 연속적인 데이터를 작성하면 목성의 공전 주기는 점점 더 빨라지고 토성의 공전 주기는 점점 더 느려지고 있는 것처럼 보였다. 라플라스는 이러한 문제를 해결하기 위해 현재의 행성 위치에 따른 과거 행성 위치를 조건부 확률인 역확률로 계산하고자 하였다. 과거의 기록이 이 역확률 계산에 보다 부합하면 신뢰할만한 기록으로 평가할 수 있다.[8]:47-53 라플라스는 행성들의 과거 기록 데이터를 이용하여 다음과 같은 역확률 함수 를 작성하여 확률분포도를 계산하였다.[19]
x = 실제 위치와 데이터 상의 오차 거리, m = 매개 변수
라플라스는 이를 이용하여 동일한 시간대의 여러 관측 데이터의 확률 분포를 구하고 중앙값을 계산하였다. 이로서 특정 시기의 행성 위치 데이터는 확률적 신뢰도에 따라 구분될 수 있다.[19] 라플라스 이후 베이즈 확률론은 흔히 "역확률"로 불리게 되었는데 현재 주어진 데이터를 통해 과거의 상태 또는 원인의 확률을 계산하기 때문이었다.[20]
역확률은 조건부 확률로 계산되기 때문에 주어진 데이터를 통한 역확률의 계산에서 데이터의 확률 분포는 매우 중요한 참조 값이 된다. 예를 들어 발병율이 0.5 %인 질병의 경우 양성 판정이 나왔다 하더라도 실제 병에 걸린 확률은 약 32.3 %에 불과하다. 발병율의 확률 분포가 조건부 확률의 계산에 큰 영향을 미치기 때문이다.[21]가우스는 정규 분포의 개념을 확립하여 역확률 개념을 발전시켰다.[22] 라플라스와 가우스가 발전시킨 중심 극한 정리는 주어진 데이터의 수가 충분히 크다면 해당 데이터의 확률 분포는 정규 분포를 따른다는 것을 보여 준다.
19세기 공리주의는 확률과 역확률을 달갑게 보지 않았다. 존 스튜어트 밀은 확률을 "과학으로 위장한 무지"라고 혹평하였다.[23] 이후 베이즈 확률론을 공격한 빈도주의 확률론은 확률을 객관적으로 발생하는 사건의 빈도로 정의하고자 하였고 제임스 클러크 맥스웰은 빈도주의를 기반으로 통계역학을 정립하였다. 이후 베이즈 확률론은 오랫동안 비주류의 위치에 있었지만 인구와 산업 등의 각종 사회 현상을 다루는 분야에선 여전히 사용되었다.[8]:90-91
19세기 말 드레퓌스 사건은 프랑스 지식인 사회에 큰 충격을 주었다. 반유대주의의 영향 속에 불충분한 증거만으로 드레퓌스에게 종신형이 선고되자 수 많은 지식인들이 그의 무죄를 주장하였고 그 속에는 수학자 앙리 푸앵카레도 있었다. 20세기 초 재심 운동이 한창이던 1906년 푸앵카레는 다음과 같은 일기를 남겼다.[24]
몹시 화가 난다. 알프레드 드레퓌스는 첩자가 아니다. …… 나는 법원의 판결이 틀렸음을 수학적으로 증명하는 편지를 썼다.
— 앙리 푸엥카레
푸엥카레는 베이즈 확률론을 이용하여 법정에서 증거로 선택된 편지를 쓴 사람이 드레퓌스일 확률이 지극히 희박하다는 것을 증명하였다.[25] 한편 실제 첩자였던 에스테라지는 이미 발각되었지만 군부는 자신들의 실수를 덮기 위해 그를 무죄로 방면한 상태였다. 드레퓌스는 재심에서 5년 형을 선고 받았으나 곧 사면 복권되었다.
20세기 초 베이즈 확률론은 탄도학과 같은 실용적인 분야에서 여전히 사용되고 있었지만 대부분의 과학 분야에서 비주류에 머무르고 있었다. 1920년대 베이즈 확률론은 여러 분야에서 독자적으로 적용되고 있었다. 존 메이너드 케인스는 논리학을 확률론적으로 확장시키면서 선험적 확률을 도입하였다. 이는 베이즈 확률론의 주관주의적 해석에 기반한 것이었다.[26] 1930년대 이탈리아의 브루노 데 피네티는 교환 가능성이라는 개념을 통해 사전 확률 분포를 수학적으로 설명하였다. 그러나 데 피네티 정리는 그리 큰 영향력을 발휘하지 못하여 레너드 새비지가 다시 도입할 때까지 사장되어 있었다.[26]
헤럴드 제프리스는 1939년 《확률 이론》을 발간하여 베이즈 확률론을 다시 주류 수학계에 등장시켰다. 제프리스는 베이즈 확률론을 기하학의 피타고라스 정리에 비유하였다.[1]
기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다.
— 헤럴드 제프리스
제프리스는 객관적인 사전 확률 결정을 위해 피셔 정보를 도입하였는데 이로서 베이즈 확률론은 보다 오차율이 적은 사전 확률의 규모를 정할 수 있게 되었다. 자료에 대한 객관적 접근 때문에 제프리스의 방식을 객관주의 베이즈 확률론이라고 한다.[26]제2차 세계 대전 중 나치 독일의 에니그마 암호 체계를 해독한 앨런 튜닝은 영어의 a/an 에 해당하는 독일어 ein 이 암호문에서 90 %의 분포를 보인다는 것을 암호 해독에 이용하였다. 알파벳 3개로 이루어진 암호문이라면 일단 ein으로 가정하고 에니그마의 세팅을 추측하는 시도를 하였는데 이렇게 선험적으로 가설을 추정하고 확률 분포에 따라 시행해 보는 방법은 베이즈 확률론과 같은 것이지만, 튜링이 베이즈 확률론을 알고 있었는 지는 알 수 없지만, 튜링의 방법을 이어받아 암호를 해독한 정보기관들은 20세기 중반 무렵 베이즈 확률론에 따른 암호 해독 체계를 이용하였다. 그러나, 이들의 작업은 국가 비밀이었기 때문에 외부로 알려지지 않았다.[8]:139-191
이후 에이브러햄 왈드와 레너드 세비지에 의해 발전하게 된 베이즈 확률론은 1950년대에 이르러서야 이전에 쓰이던 "역확률" 등의 이름 대신 자신의 이름으로 "베이즈 확률론"을 얻게 되었다. 1960년대에는 18세기의 그것과 구분하기 위해 "신베이즈 확률론"이라는 명칭이 쓰였다.[27][28][29]
객관주의적 해석에서 통계 분석은 오직 예측과 데이터 분석에 의존하며[30] 주관적 결정이 끼어들 여지가 없다. 이에 대해 주관주의적 해석을 지지하는 통계학자들은 일반적 사례를 모두 분석할 수 있는 객관적 데이터는 확보할 수 없다고 반박한다.
1950년대 사회 보험의 설계와 같은 부분에서 사용되었으나[8]:208-209 사회 전반에선 여전히 널리 쓰이지 않던 베이즈 확률론은 1980년대에 이르러 마르코프 연쇄 몬테카를로 방법이 개발 된 이후 획기적으로 적용 분야가 늘어나게 되었다.[31] 여전히 빈도주의 확률 해석이 확률론 교육의 기반으로 자리잡고 있었지만[32] 베이즈 확률론에 따른 응용 분야는 점차 확대되었다. 1989년 도입된 기브스 표집은 베이즈 확률론에 따른 확률 분포를 보다 쉽게 적용할 수 있도록 하였고 이후 수 많은 다른 표집들이 개발되는 계기가 되었다.[26]
21세기에 들어 인공 지능의 기계 학습이 주요한 이슈로 떠오르면서 베이즈 확률론이 적용되고 있다.[33]
베이즈 확률론의 정당화
과학의 많은 분야에서 베이즈 확률론은 여전히 일각을 차지할 뿐이다. 1995년 이후 2014년까지 가장 많이 인용된 통계학 논문 15편 가운데 베이즈 확률론을 바탕으로 하는 것은 1⁄3 인 5 편 뿐이다.[26] 베이즈 확률론의 핵심인 베이즈 추론은 콕스 정리, 결정 이론, 데 피네티 정리 등에 의해 정당화 된다.
베이즈 통계학은 베이즈 확률론에 기반하여 모집단을 확률 변수처럼 취급하여 주어진 데이터로부터 원인을 추정하는 통계 기법이다.[34] 베이즈 확률론의 대표적인 응용분야이다. 기후 변화에 따른 위험 요소 평가부터[35] 각종 의학 연구에 이르기 까지[36] 광범위하게 사용되고 있다.
죄수의 딜레마와 같은 고전적 게임 이론에서 참가자는 선택할 경우의 수를 모두 알고 있고 그 속에서 가장 유리한 방법을 찾는다. 그러나 모든 정보를 알지 못한다면 참가자는 주어진 정보 만으로 최적의 행동을 결정해야 한다. 이와 같이 베이즈 확률론에 입각하여 참가자의 상호 작용을 모형화하는 것을 베이즈 게임이라고 한다.[37]
↑Hailperin, Theodore (1996). 《Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications》. London: Associated University Presses. ISBN0934223459.
↑Jaynes, E.T. (1986). 〈Bayesian Methods: General Background〉. Justice, J. H. 《Maximum-Entropy and Bayesian Methods in Applied Statistics》. Cambridge: Cambridge University Press. CiteSeerX10.1.1.41.1055.
↑Cox, Richard T. (1961). 《The algebra of probable inference》 Reprint판. Baltimore, MD; London, UK: Johns Hopkins Press; Oxford University Press [distributor]. ISBN9780801869822.
↑ 가나de Finetti, Bruno (2017). 《Theory of Probability: A critical introductory treatment》. Chichester: John Wiley & Sons Ltd. ISBN9781119286370.
↑Harris, Marshall Dees (1959). “Recent developments of the so-called Bayesian approach to statistics”. Agricultural Law Center. 《Legal-Economic Research》 (University of Iowa): 125 (fn. #52), 126. The works of Wald, Statistical Decision Functions (1950) and Savage, The Foundation of Statistics (1954) are commonly regarded starting points for current Bayesian approaches
↑《Annals of the Computation Laboratory of Harvard University》 31. 1962. 180쪽. This revolution, which may or may not succeed, is neo-Bayesianism. Jeffreys tried to introduce this approach, but did not succeed at the time in giving it general appeal.
↑Kempthorne, Oscar (1967). 《The Classical Problem of Inference—Goodness of Fit》. Fifth Berkeley Symposium on Mathematical Statistics and Probability. 235쪽. It is curious that even in its activities unrelated to ethics, humanity searches for a religion. At the present time, the religion being 'pushed' the hardest is Bayesianism.