통계

확률과 통계

rdces 2023. 4. 22. 21:58

 나는 응용통계학과 4학년이다. 누군가 내게 '통계가 뭐야?'라고 묻는다면 나는 '한정된 정보를 통해서 알고자 하는 정보를 예측하는 과학적 방법'이라고 답할 것이다. 사람들은 불확실성을 없애기 위해 모르는 것을 예측하고자 한다. 이 때 모르는 것은 대한민국 20대 여자의 평균 키와 같이 정확히 조사하는데에 너무 많은 시간과 비용이 들기 때문에 알 수 없는 것일 수도 있고, 미래의 정보이기 때문에 현재에는 모르는 것일 수도 있다. 그 외에도 미사일의 작동여부 (제대로 작동한다는 것을 알려면 그 미사일은 파괴되어 없다), 세탁기의 수명 (2023년에 출시하는 세탁기의 수명을 제대로 아려면 2063년까지 기다려야 할 것이다) 등 여건과 상황이 맞지 않아 예측이 필요한 상황들이 있다. 이 때 사용되는 것이 통계이다. 대한민국 20대 여자의 평균 키를 예측할 때 '165라는 숫자가 마음에 드니까 165로 하자!'와 '내 친구들을 보니까 다들 163 즈음 되는 것 같아. 163으로 하자.'는 다르다. 더욱이 '층화추출법으로 500명의 표본을 추출하여 표본 평균을 구한 결과 164야. 또한 2013년부터 10년 간의 20대 여자의 평균 키를 바탕으로 회귀 모델을 만들어 적용한 결과 2023년 20대 여자의 평균 키는 164로 추정할 수 있어.'는 완전히 다른 이야기다.

 

 다음은 수리통계학 전공책에 인용되어 있는 통계의 정의들이다.

'a brach of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data' (Webseter's New Collegiate Dictionary)
"Statistics is the branch of the scientific method which deals with the data obtained by counting or measuring the properties of populations." (Stuart and Ord)
Statistics is "the technology of the scienftific method" and is concerned with "(1) the design of experiments and investigations, (2) statistical inference." (Mood, Graybill, and Boes)

 

 이 외에도 여러 인용이 있지만 전공책은 이를 통틀어서 'statistics is a theory of information, with inference making as its objective.'라고 이야기한다. 되게 두루뭉술하게 이야기하지만, 그보다 뒷부분에 통계학의 목적을 이야기하며 더욱 자세히 통계에 대해 설명한다. 'The objective of statistics is to make and inference about a population based on information contained in a sample from that population and to provide an associated measure of goodness for the inference.' 통계란 '모집단으로부터 표본을 추출하여 표본의 정보를 바탕으로 모집단의 정보에 대해 추론하고, 그 추론 결과에 대해 얼마나 믿을 수 있는지를 측정하는 과정'이라는 것이다.통계의 전반적인 과정에서 얘기하자면 표본 추출, 실험 계획, 가설 검정 등등 여러 가지를 얘기해야 하겠지만 통계의 핵심은 추론과 그에 대한 증명으로 이뤄져있다. 4년 간 통계를 공부하며 내가 느끼는, 통계는 '추론'하는 과정이기 때문에 매우 조심스럽고 보수적이다. a가 아니라고 말할 수는 없지만 그렇다고 a가 맞다고 인정할 수도 없는 게 통계이다. 불확실한 결과를 제공하는 만큼 통계에서 신뢰도를 제공하는 것은 중요하며 이와 관련된 내용은 학사 과정 내의 거의 과목에서 등장한다. 통계는 추론의 전 과정에서 자신의 추론이 정당하다는 것을 증명할 증거들을 제시하는 과목이다.

 

  그럼 '추론을 정당화하는 증거는 어떻게 제시할 수 있을까?'에 대한 답이 확률이다. 우리는 추론이 일어날 가능성이 높다는 것을 얘기해야하고 상대방이 이를 납득할 수 있게 해야 한다. 포커 게임을 예로 들어서 얘기해보자. 포커 게임에서 원페어와 투페어 중에 어떤 패가 더 강력한 패(더 가능성이 낮은 패)가 되어야할까? 이에 대해서 우리는 직관적으로 투페어가 더 손에 쥐기에 어려운 패라는 것을 알 수 있다. 직관에 맡기지 않더라도 시간을 들여 50번 정도 패를 나누고 나온 결과를 바탕으로 뭐가 더 가능성이 낮은 패인지를 확인할 수 있다. 여기까지는 쉽다. 그렇다면 플러쉬와 풀하우스 중에서는 어떤 패가 더 강력한 패일까. 직관적으로 생각해봐도 둘을 비교하기는 어렵고, 실제로 실험해본다 해도 믿을 수 있는 결과가 나오기 어렵다. 애초에 그 날에 그 패를 관찰할 수 있을지조차 확신할 수 없다. 이에 대한 해결책으로서 통계는 확률을 '가능성을 측정하기 위한 수단'으로 사용한다. 플러쉬가 관측될 확률은 0.001965, 풀하우스가 관측될 확률은 0.001441이다. 미세한 차이로 풀하우스가 더 높은 패이다. 확률은 숫자로서 확실히 제공되는 단서로 우리에게 더 확실한 신뢰를 제공한다. 

 

 그렇다면 확률은 무엇인가? 모두가 확률이 무엇인지는 대략적으로는 알고 있다. 0.xxx... 혹은 a/b, x%로 나타나는 숫자이며 적을수록 그 일이 일어나기 어렵고 높을수록 그 일이 일어나기 쉽다. 일상에서는 이 정도로 충분할테지만 통계에서는 아니다. 수리통계학 책에서 '통계란 무엇인가?' 이후에 나오는 개념이 '확률'이다. 통계의 모든 과정은 확률을 기반으로 전개되기 때문에, 모두가 인정할 수 있고 어디에서나 이치에 맞게 적용될 수 있는 확률에 대한 확실한 개념이 필요하다. 이를 우리는 '확률의 공리'라고 이야기한다. '공리'는 제일 처음에 제시되는 개념으로 증명할 필요 없이 받아들이면 되는 상호 간의 약속이다. 확률의 공리는 다음과 같다.

확률의 공리

이제 우리는 전세계 어느 나라를 가도 바뀌지 않는 확률의 정의를 갖게 되었고, 이로써 통계적 추론을 시작하고  그 결과를 뒷받침할 근거를 제공할 준비가 되었다.