통계로 사기 치는 방법을 알려줄까?

[책 읽어 주는 여자 14] 평균이 하나라고 믿는가? <새빨간 거짓말, 통계>

검토 완료

임지영(lightand)등록 2015.01.10 18:15

▲ 새빨간 거짓말, 통계 ⓒ 더불어책 ⓒ 대럴 허프

"담배를 피우면 공부를 못한다?" - 조사결과는 그렇다는 것으로 판명되었다.
좋은 성적을 올리려면 결국에는 담배를 끊어야 되는 결론으로 이끄는 것 같은데, 좀 더 흡연은 사람의 지능을 저하시킨다는 결론까지 가더라도 큰 무리는 없을 것 같이 보인다.

그러나 이 연구결과의 오류는 옛날부터 내려온 전통적인 오류로, 통계자료 속에서 어떤 경향이 갑자기 두드러지게 나타나는 것을 말하는데 그럴듯한 숫자로 모양을 바꿔 등장시키는 수법이다.
즉 B는 A가 발생한 후에 일어난 것이니 A는 B의 원인이라고 결론을 내리는 오류이다. 위의 가정은 흡연과 성적불량이 동시에 발견되므로 흡연이 성적불량의 원인이라는 부당한 엉터리 가정을 하였던 것이다. 그렇다면 그 역도 옳을 수 있지 않을까? 즉 어쩌면 성적 불량 때문에 음주가 아닌 흡연을 하게 된 것인지도 모른다. 

사회나 경제의 동향, 기업의 경영상태, 여론조사, 국제조사 등 방대한 데이터를 기록하는데 통계적 방법과 통계적 용어는 결코 없어서는 안 될 용어들이다.
통계학이라는 비밀스러운 술어는 증거를 중요시하는 문화를 가진 현세에서 사람들을 선동하거나 혼란에 빠뜨리게 하며, 사물을 과장하거나 극도로 단순화하기 위해 자주 이용된다. 약간의 화장으로 새로운 사람을 만들 듯이 통계는 여러 사실들을 전혀 다른 것들로 꾸며낼 수가 있다.

한국인은 하루 평균 2.35회 이를 닦는다는 기사를 얼마 전 접했었다.
"도대체 그걸 어떻게 알아낼 수 있었지?" 
수 많은 광고를 통해 이를 닦지 않는 사람은 '더럽다' 고 세뇌를 받았는데 난생 처음 보는 사람에게 자신은 매일 규칙적으로 이를 닦지 않는다고 고백할 수 있을까? 따라서 이 통계숫자는 그저 이를 닦는 것에 관해 사람들이 어떤 대답을 하는지 알고 싶을 때나 의미가 있을지는 몰라도 칫솔로 앞니를 몇 번이나 닦는지 그 횟수에 대해서는 실제로 아무 것도 말해 주지 않는다.

'00회사 치약으로 23% 충치 감소'
광고가 사실이라면, 충치가 23%나 줄어든다니 정말 괜찮은 치약이라고 누구나 생각할 것이다. 그러나 어느 회사의 치약이 다른 회사 치약보다 월등히 좋다는 일은 우리의 경험에 비추어볼 때 충분히 의심할 만하다. 그렇다면 00회사는 거짓이라고 알면서도 뻔뻔스럽게 광고를 낼 수 있을까? 물론 그렇지는 않았을 것이다.

가장 커다란 속임수는 불충분한, 즉 통계적으로 불충분한 표본을 채택했다는 점이다. 단 열두 명을 대상으로 실험한 결과에 지나지 않지만 회사에 소송을 걸더라도 결코 이길 확률은 적다고 한다. 광고주 중에는 이런 종류의 정보조차 아예 생략해 버리는 경우도 있고 또 간혹 어떤 종류의 속임수를 썼는지를 추측하기도 어렵게 복잡한 통계기법을 제시하기도 한다.

이 열두 명의 실험대상에게 6개월 간 충치의 수가 몇 개인가를 조사하게 한 후 치약을 사용하도록 하였다. 이 때 다음 세 가지 중의 어느 한 결과가 나올 것이다. 즉 충치의 개수가 늘어나거나 줄어들거나 늘지도 줄지도 않는 경우 중의 하나일 것이다. 이 중 첫 번째 경우와 마지막 경우가 나타나면 이 숫자를 따로 떼어놓고 다시 실험을 되풀이 한다. 그러면 조만간 언젠가는 정말 우연에 의해 실험집단에서 충치가 줄어드는 결과가 나오게 되는데, 이는 충분히 큰 제목으로 뽑은 대규모의 광고전을 벌일 만한 소재가 되는 것이다.

그러나 이런 실험결과는 특정기업의 치약을 쓰건 소다가루를 쓰건 또는 기존에 사용하던 치약을 사용하건 조만간 나타나는 현상이다. 적은 인원으로 실험을 하는 중요한 이유는 무엇일까? 실험집단이 대규모이면 우연에 의해 나타나는 차이가 아무래도 미미해지고 따라서 위와 같은 커다란 제목의 광고를 내걸 수 없고 단지 2% 정도 충치가 줄어들었다는 광고를 통해서는 치약의 판매실적을 높일 수가 없기 때문이다.

아무런 차이가 없는 어떤 결과를 순전히 우연에 의해 만들어 낼 수 있다는 것은 그리 힘들이지 않고도 쉽게 검증할 수 있다.

동전 던지기를 해 보자. 앞면이 나오는 확률은 누구나 다 알다시피 50%이다. 자, 그러면 실제로 동전을 던져 보며 알아 보자. 내가 동전을 열 번 던졌더니 앞면이 여덟 번이나 나왔다면 앞면이 나올 확률은 80%임을 입증한 셈이다. 치약의 통계도 결국 그랬던 것이다

통계에 있어서 가장 중요한 것은 표본을 근거로 어떤 결론을 내릴 때 그 표본이 모집단 전체를 대표하는 것이라야 한다는 사실이다. 즉 왜곡의 원인이 되는 모든 것을 제거하고 난 표본이라야 한다는 것이다.

그러나 자료를 통계적 조작에 의해 몇 번이고 걸러서 그 결과가 소수점이 붙은 평균값으로 바뀔 때쯤 되면, 그 결과가 본래의 데이터와는 전혀 다름에도 불구하고 이상스럽게 맹목적인 신뢰감마저 들기 시작한다. 표본을 조금만 더 자세히 들여다보면 그 허구가 금방 드러날 수 있음에도 불구하고 말이다.

매년 연초, 연말이면 이직과 구직 시장이 활기를 띄면서 '직장인 평균 임금' 이 인터넷 검색어 상위에 링크되곤 한다. 회사의 사장님이나 중역들이 종업원 전체의 평균급여가 얼마라고 발표할 때 그 값에 커다란 의미를 부여할 수도 있지만 전혀 그렇지 않을 수도 있다. 예를 들어 사장님의 급여 1억 8백만원과 그 보다 적은 나머지 종업원들의 급여들을 합한 평균값일 뿐이라는 것 외에는 아무것도 알 수 없는 값이다. 따라서 '연간 평균 급여 1억 368만원' 이라고 할 때 이 숫자는 엄청나게 높은 금액의 사장님 급여와 480만원이라는 종업원의 급여 그 어느 쪽도 해당되지 않는 터무니없이 황당한 수치이다.

그렇다면 통계의 속임수를 피하는 방법에는 무엇이 있을까?

첫 번째. 누가 발표했는가? 출처를 캐 봐야 한다.
무엇보다도 가장 먼저 주의하여야 할 것은 왜곡된 통계를 찾아내는 일이다. 예를 들어, 어떤 실험실에서 무엇인가를 검증하였다면, 자신이 주장하는 이론의 완벽성을 과시하기 위해서인지, 또는 명예를 위해서인지 또는 돈을 목적으로 하는 것인지 알아볼 필요가 있다.

두 번째. 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다.
표본의 추출 방법이 부적당했던 것은 아니었는지 또는 조사하는 과정에서 나온 몇 개 안되는 표본을 그대로 사용한 것은 아닌지를 따질 필요가 있으며 표본은 신뢰할 만한 결론을 얻기에 충분히 큰가의 여부도 따질 필요가 있다.

세 번째. 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다.
표본의 크기가 얼마인지 항상 알려 주지는 않는다. 이런 숫자가 빠져 있다면 특히 그 출처가 중요한 관심사라면, 그 통계나 조사전체에 대하여 의심해 볼 필요가 있다. 마찬가지로 신뢰도에 관한 자료 (확률 오차나 표준편차 등) 가 빠져 있는 상관관계는 심각하게 여길 필요가 없다.

우리의 문제는 무지가 아니라 잘못 알고 있다는 사실에서 비롯된다. - 아르테머스 워드
  • 이 기사는 생나무글입니다
  • 생나무글이란 시민기자가 송고한 글 중에서 정식기사로 채택되지 않은 글입니다.
  • 생나무글에 대한 모든 책임은 글쓴이에게 있습니다.