세상에는 3가지 거짓말이 있다.- 벤저민 디즈레일리
그럴 듯한 거짓말, 새빨간 거짓말, 그리고 통계이다.(Lies, damned lies, and statistics)
1. 본문 ¶
여러 현상(자연 현상이나 사회 현상)으로 인해 얻어진 다양한 자료들에 대해 분석하고 연구하는 학문이다. 학문 특성상 확률과 부딪힐 일이 많다 보니 보통은 확률론과도 같이 엮인다.[1]
태생적으로 수학과는 불가분의 관계일 수 밖에 없는 학문으로, 통계를 공부하려면 어느 정도의 수학을 반드시 알아야 한다. 이 때문에 수학의 한 분야로 취급되기도 하나, 통계학의 경우 이론 못지않게 그에 대한 응용이 중요하다.(즉 두 학문의 지향점이 약간 다르다.) 수리적인 견지에서 통계학을 연구하는 수리통계학은 확률분포의 성질, 통계량의 충분성(sufficient statistics), 통계검정의 효용성(most powerful test) 등에 대한 증명, 확률과정(stochastic process)의 수리적 성질에 초점을 맞추는 반면, 통계학적인 견지에서는 통계적 모형에 대한 추정방법 개발과 구현, 분석결과의 해석 등에 방점이 놓여있다.
현대에 이르러서는 안 그래도 자료가 방대하게 쏟아져 나오는데 다양(하면서 난해하기까지)한 통계 분석 방법들이 많이 알려져 이를 실제로 적용하는 데에는 컴퓨터를 이용해야 하는게 일반적인 경우가 되어 버렸다. 덕분에 통계를 전공하는 학생들은 공대생들과 마찬가지로 프로그래밍에 익숙해져야 한다. 일반적으로 많이 쓰는 프로그램으로는 SAS, R, SPSS, STATA, Eviews, MATLAB 등이 있으며, 사용자의 목적에 따라 주로 사용되는 프로그램이 달라지게 된다. 예를 들어 공대는 MATLAB 계열을 많이 사용하고, 사회과학 계열에서는 SAS나 STATA를 사용한다. 그러나 통계분석을 빈번하게 할 경우에는 여러개의 프로그램을 사용할 줄 아는게 도움이 된다.
2.1. 너무 작은 표본에 기초한 결론 ¶
아무도 빠지지 않을 것 같지만 실제로는 가장 많은 사람이 빠지는 통계의 함정이다. 어렸을 때 우유를 마시면 키가 큰다는 주장에 대해 "나는 우유 매일 마시고도 키가 작아. 그거 거짓말이야."와 같은 소리를 하는 사람이 있다. 실제로 우유와 키가 별 상관이 없다는 연구 결과가 많지만, 진위 여부와는 무관하게 본인의 경우만으로는 이를 판단할 수 없다. 이 말은 자기가 우유를 마시지 않았더라면 지금보다 키가 작을 수 있었다는 반론에 반박할 수 없기 때문이다.실제로 전체의 10~20%이상은 표본으로 잡아둬야 함정이 될 가능성이 줄어든다고 한다.
2.6. 집단의 특성을 개인에게 적용 ¶
네덜란드 남자의 평균키는 180cm가 넘는다. 대한민국 남자의 평균키는 173cm 정도이다. 하지만 한국 남자 중에서도 분명 네덜란드 남자보다 키가 큰 사람이 있다. 남녀의 경우에도 마찬가지다. 일반적인 남자는 여자보다 운동 능력이 뛰어나지만, 남자를 1:1로 싸워서 제압할 수 있는 여자도 있다.
3. 문과? 이과? ¶
심지어 대학에서도 학교에 따라 통계학과의 소속이 다른데, 어떤 곳에서는 이과계열에 속해 있고 어떤 곳에서는 문과계열에 속해 있다. 이과계열에 속해있는 경우는 보통 수학과와 붙어 있으며, 문과계열에 속해있는 경우에는 경제학과와 붙어 있다. 전자의 경우가 서울대, 서울시립대 후자의 경우가 연세대, 고려대, 성균관대, 중앙대. 이 경우 통계학과에 계시는 교수님의 전공분야가 서로 달라진다. 이과 계열에 속해있다면 수리통계, 확률론 등 통계이론을 전공한 교수가 있을 확률이 높고, 문과 계열에 속해있다면 시계열, 통계 예측, 계량사회과학 이론 등 응용통계학을 전공한 교수가 있을 확률이 높다.
통계학과 이외에도 연구 과정에서 통계학이 필요한 학문 분과에서는 해당 학문의 계량적 연구방법론을 전공한 교수/강사가 수업을 제공한다. 일반적으로 공대, 자연대, 사회대 학과 대부분에서는 학부와 대학원 과정을 막론하고 거의 모든 전공에서 통계학 수업이 열린다. 대학원 과정까지 통계학 수업이 제공되지 않는 전공은 인간의 삶과 사고에 대해 사변적으로 접근하는 학문인 인문학 정도이다. 그나마 최근에는 철학, 역사학, 언어학, 문체론의 연구에서도 통계학이 중요하게 사용되기 시작하고 있다.
어렵다는 인식이 붙어 있는데, 물론 어렵다는 말은 사실이지만 잘만 배워두면 여러모로 유용한 학문이다. 특히 적절한 상황에 통계 분석 자료를 이용하면 자신의 주장에 대한 신뢰성이 높아진다. 당장, 썰만 푸는 것과 숫자를 들이대며 증거를 내세우는 거랑 같은 말을 하더라도 어떤 게 신뢰가 갈까?썰푸는거
4. 논문의 기초 ¶
학부 과정에서는 기초적 통계 이론, 기초 확률론, 표본론, 회귀분석 과 그 응용(시계열 분석 등), 기타 비모수적 통계이론이나 베이지언[7] 통계이론 등을 배우며, 이를 위해서는 선형대수학과 해석학[8] 역시 잘 알고 있어야 한다.
또한, 대학원에 진학하여 논문을 쓰고자 하는 경우, 실험분석이나 자료해석이 필요한 연구분야의 경우 대부분의 논문이 통계 분석을 거쳐 논문의 결론을 제시하게 된다. 따라서 대학원 진학시에는 기본적인 테이블 결과 해석 정도는 할 줄 알아야 하며, 최소한 기초통계학과 회귀분석에 대한 지식을 마련하는 것이 연구에 직/간접적인 도움이 될 것이다. 또한 자기 연구에 통계를 직접 써먹고 싶다면 SPSS, SAS, Stata, R, Matlab 등 통계분석 프로그램을 다루는 법도 배울 필요가 있다. 변수가 매우 적다면 엑셀로도 버텨볼 만하지만 최소 독립변수가 대여섯 개인 다중회귀분석만 들어가도 엑셀로는 답이 없다. 엑셀 함수(trend, slope, linest 등) 및 데이터분석 메뉴에서 다중회귀분석을 지원한다.
5. 대학 강의로서의 통계학 ¶
통계학은 정수론, 해석학, 미적분학 등 다른 수학 분야에 비해, 공식만 외우고 주어진 값을 대입하면 문제가 풀리는 경우가 많다. 그래서 그냥 공식만 외우고 마는 사람이 많은데 이럴 경우 통계학을 배우는 의미 자체가 상당히 퇴색된다. 어차피 실무에서 계산은 컴퓨터가 해주기 때문. 공식을 외우는 것이 아니라 어떠한 통계적 추론이 어떤 근거와 가정 하에 이루어지고, 어느 정도 신뢰해도 되는가 등의 원리를 파악해야 한다. 입문 과정을 가르친 것만으로 높은 수학적 사고력을 요구하는 문제가 출제 가능한 다른 분야에 비해, 통계학은 한두 학기 가르친 것만으로는 높은 수준의 문제를 내는 것이 어려운 편이다. 따라서 개념을 확실히 이해하고 있는지를 확인하기 위해 아주 자세한 서술을 요구하거나, 무늬만 통계학 문제이고 실제로 다른 분야를 응용하게 하는 문제를 출제한다..[9]
----
- [1] 다만 확률론의 경우 다른 통계 분야보다 순수수학적인 면이 많다.
- [2] 특히 OECD 통계
- [3] 물론 논리적으로 올바른 통계적 추론의 경우에도 결과를 왜곡할 수 있는 편법은 얼마든지 있다. 통계 관련 종사자들 사이에서는 '원하는 결과는 그 어떤 결과라도 만들 수 있다.'는 것이 공공연한 비밀이다.
- [4] 물론 많은 의학 연구가 담배는 폐암의 원인이라고 주장하고 있다. 물론 담배 회사들은
돈줄을 위해서상반되는 주장을 펼치고 있다. - [5] Lori Mosca et al., "Evidence-based Guidelines for Cardio-vascular Disease Prevention in Women", American Heart Association, February 2004
- [6] J. Utts, vol. 57, no. 2, May 2003
- [7] 유명한 통계학자 토머스 베이스의 이름을 땀.
- [8] 만약 대학원에 생각이 있다면 실해석학까지 공부해 두는 것이 좋다.
- [9] 1번 항목의 확률과의 차이이다. 추가로, 다른 학문이라 하여 공식만 외우면 장땡인 경우는 없다...
- [10] 서울대학교 통계학과 홈페이지