메뉴 건너뛰기

close

○ 광주시는 최근 3년간 발생한 자살사고와 119 구급자료, 응급진료정보, 기상자료, SNS 게시글 등 빅데이터에 기반해 자살 고위험군의 특성을 분석한 결과를 발표했다. 광주시는 빅데이터 분석을 토대로 자살 고위험군별 시도 주기, 요일 등에 따라 자살 반복 시도자를 집중 관리하기로 했다.

○ 특허 분쟁과 소송도 빅데이터로 대응하는 시대가 온다. 셀수없이 많은 정보를 한꺼번에 모아 조사·분석할 뿐 아니라 특허 쟁점 요소에 대한 유사성 여부까지 신속하게 판단할 수 있는 솔루션 등이 개발되고 있기 때문이다.

○ 네이버는 13년 동안 쌓아온 이용자 패턴을 분석한 빅데이터를 기반으로 이용자 맞춤 답변을 제공하는 '지식iN 답변 추천' 서비스를 오픈했다.

○ 전라남도는 지난 4월 개통된 호남고속철도에 따른 교통 활용 변화 등 이용객 행태를 빅데이터로 분석해 전남지역 경제 활성화를 위한 상권, 관광, 교통 등 맞춤형 정책개발에 활용할 계획이다.

○ 국립암센터는 120만명 암 경험자와 생존자 데이터베이스를 구축해 암치료 후 생활습관 등 암 빅데이터 분석을 실시한다. 이를 통해 암 재발 예방, 치료 후 생존율 향상 등을 위한 전주기적 관리시스템을 개발할 계획이다.

○ 정부는 지난 13년간의 식중독 발생사례를 분석해 관계기관에 제공한 식중독 발생 예측정보가 식중독 예방에 효과가 있는 것으로 나타났다고 밝혔다.

아직은 생소한 '빅데이터'를 검색해보니 최근 한달간 뉴스로 이런 내용들을 볼 수 있었다. 빅데이터는 삶의 전 영역에 매우 가까이 다가와 있다. 내가 컴퓨터와 스마트폰을 통해 내보낸 사소하고도 하찮은 정보들이 모이고 카테고리에 따라 분류, 분석되어지면 사회적 의미를 갖게 된다. 전문가들은 아직은 데이터가 쏟아지는 속도를 분석하는 속도가 따라잡지 못한다고 한다. 그러나 기술의 급격한 발전은 머지 않아 이 간극을 따라잡을 것이다.

빅데이터, '생각의 속살'을 들여다보다

.
▲ <빅데이터, 인간을 해석하다> 표지 .
ⓒ 다른

관련사진보기


미국의 대표적인 데이트 사이트 'Ok큐피드'(OkCupid) 공동 창립자이자 데이터 과학자인 크리스티안 루더는 <빅데이터, 인간을 해석하다>라는 책에서 "지금까지 데이터에 대한 대중의 논의는 주로 정부 감시와 상업적 기회라는 두 가지 분야에 집중되어 왔다"며 'Ok큐피드'의 고객 경험 데이터를 활용한 자신의 연구는 감시와 돈을 뺀 '제 3분야'인 '인간에 대한 이야기'라고 강조했다.

그는 "우연한 기회에 인간은 디지털 데이터를 통해 자신이 싸우고 사랑하고 나이 드는 모습, 자신이 누구이며 어떻게 변해가는지까지 볼 수 있게 되었다"며 "그저 들여다보기만 하면 된다. 전체 데이터 중 아주 작은 부분만 살펴보더라도, 아무도 지켜보지 않는다고 생각할 때 사람들이 행동을 하는지 드러난다"고(17쪽) 했다.  

빅데이터를 통해 우리는 더 이상 "우리 친구 할머니는 하루에 담배 두 갑씩 피우고도 95세까지 살았다"와 같은 일화가 아닌 수만, 수억 명의 흡연자 건강에 대한 사실을 객관적으로 확인할 수 있다. 비범한 사람들의 큰 목소리만 기록한 기존의 역사가 앞으로는 보통 사람들의 작은 목소리에도 기록하는 역사로 바뀔 것이라고 이야기한다. (7쪽)

세상의 모든 데이터를 수집, 분석, 활용하는 시대는 어떤 모습일까? 데이터는 우리의 정치, 문화, 취미, 집단속에서 타인의 속마음은 물론 내가 모르는 나까지도 담아낼 수 있다. 저자는 "이미 정립된 잘 알려진 개념을 수백만 명의 아주 작은 행동 하나까지 찾아내 검증하는 세부 정보는 기존 연구를 강화하고 미묘한 차이를 분석할 수 있게 해줄 뿐만 아니라 연구의 발전 방향을 제시해주기도 한다"(158쪽)고 설명한다.

저자가 보기에 '인종 차별'이라는 키워드는 데이터의 미래 가능성을 엿볼 수 있는 몇 안되는 분야 가운데 하나다. 검색 경향의 변화와 그 무렵 일어난 사건을 연결시키면 데이터 이면에 드리운 사람들의 감정을 엿볼 수 있다.

흑인을 비하하는 단어인 'nigger'는 미국에서 1년에 700만 번이나 검색되는 흔한 검색어라고 한다. 2008년 미국 대통령 선거 기간 동안, 6월 6일 힐러리 클린턴이 물러나고 오바마가 민주당 공식 후보가 된 날 'nigger' 검색 횟수가 최고점을 갱신했다. 선거 당일 밤 'nigger' 검색이 폭주했고 전례 없는 최고점을 기록했다. 오바마가 당선된 다음날 '오바마'에 대한 검색 100개 가운데 1개에 'nigger' 또는 'KKK'라는 단어가 붙어 있었다.

사실 미국 성인들 상당수는 채용, 면접과정에서 흑인에게 점수를 낮게 주는 한결같은 경향을 보인다. 대부분의 사람들은 인종차별이 나쁘다고 생각하지만, 차별할 의도나 생각 없이 행해지는 수백가지 사소한 일상적 행동이 합쳐져 사회 전반적인 인종 차별의 문화를 형성한다.

개개인은 따로 놓고 보면, 모든 개인적 경험은 너무 사소하고 다양해서 '인종 차별'이라고 '확신'할 만한 행위는 찾아볼 수 없다. 언제나 피부색이 아니라 자신이 문제일 가능성이 있기 때문이다. 반면 오바마가 당선되고 난 후 얼굴이 벌개져서 '검둥이 농담'(nigger jokes) 따위나 검색하는 남자를 떠올려 보면 한편으론 우습지만, 그런 사람이 1000명 있고 그 1000명이 모두 똑같은 검색을 하는 모습을 상상하면 마냥 웃기는 힘들다. 더욱이 이런 사적인 태도가 공적인 영역에서조차 큰 영향을 미친다는 사실을 접하면 웃음기는 싹 가신다. 한 사람의 이야기와 우리 모두의 이야기는 다르다. 집합 데이터가 필요한 이유는, 바로 개인의 일화로는 절대 승자를 가릴 수 없는 논쟁의 답을 준다는데 있다. 데이터는 주장이 아니라 우리가 직면해야 할 사실을 보여 준다. (180쪽)

데이터 홍수 시대, 익사할 것인가? 떠오를 것인가?

앞으로 2년 안에 지금까지 출판된 모든 책에 쓰인 글의 양보다 트위터에 올라온 글이 더 많아질 것이라고 한다. 트위터 덕분에 우리는 생각을 구성하는 글 뿐만 아니라 사회적 연결 기능을 하는 글도 연구할 수 있게 되었다. 전통 매체외 달리 트위터에서는 사회적 연결을 개개인 단위까지 확인할 수 있다.

구글 북스는 전 세계 도서관과 협력해 지금까지 약 3000만 권의 크고 작은 책을 디지털화했다. 구글 북스의 방대한 데이터는 문화를 정량적으로 연구하는 새로운 학문, 컬처로믹(culturomics)의 탄생으로 이어졌다. 컬처로믹스의 주요 연구 방식은 시간에 따른 단어의 변화를 추적하는 것이다. 오랜 시간을 아우르는 구글 북스의 방대한 데이터는 인간과 주요 사물들을 색다른 시각에서 바라볼 수 있게 해준다.

데이터 과학은 이미 사람들의 삶의 방식을 설명하는 수준에서 나아가 삶 자체를 바꿀 수 있는 깊이 있는 연구 결과를 내놓고 있다. 앞서 2008년 도입돼 현재 25개국이 넘는 곳에서 초기 전염병을 추적하는데 쓰이는 구글 독감 트렌드에 대해 언급한 바 있다. 비록 완벽하지는 않지만 아직 시작일 뿐이다. 이미 통합 데이터는 질병의 피해를 최소화 하는 데서 한발짝 더 나아가 질병을 예방하는 데까지 쓰이고 있다. (312쪽)

이 책의 원제는 '데이터클리즘'(Dataclysm)으로 이는 '데이터'(data)와 '대변동'(cataclysm)을 조합해 만든 단어다. 저자는 "사생활 보호와 서비스 이용 사이에서 어떤 균형을 택할 것인지는 스스로 결정해야 한다. 문제는 곧 '이 서비스를 사용할 것인가, 말 것인가?'라는 양자택일적 질문으로 선택지가 바뀔 수 있다는데 있다"며 "데이터 분석 능력이 너무 강해지고 있으므로 숨기고자 하는 노력은 별 쓸모가 없어질 수도 있다. 아직 몇년치 데이터밖에 없는데도 알고리즘은 별것 아닌 정보를 가지고 어떤 사람의 많은 부분을 추론해낸다. 곧 '개인정보 설정, 관리' 메뉴 같은 어중간한 조치로는 아무런 보호도 할 수 없게 될 것"(318쪽)이라고 내다본다.

빅데이터 활용의 증가에도 불구하고 나의 의사와 무관하게 나의 모든 정보들이 수집되고 분석되고 있다는 것은 대단히 불쾌하고도 위험스러운 일이다. 중요한 것은 데이터 활용의 목적을 분명히 하는 것이다.

저자는 "우리는 데이터 홍수를 일으켰다. 익사할 것인가, 떠오를 것인가?"라는 질문을 던진다. 그는 "데이터를 홍수에 비유했을 때 아직은 물이 소용돌이 치고 있다. 아마 우리는 소용돌이가 잠잠해지고 난 후에야 수위를 재고 풍부한 물을 활용할 수 있을 것"이라며 "물이 잠잠해지기를 기다리는 동안 데이터를 모으고 분석하고 활용하는 사람들은 자신이 하는 일의 가치를 증명하고 현재 하는 일에 대해 명확히 밝혀야 한다. 그렇게 하지 않는다면 내 모든 핑계에도 불구하고 이런 일을 해서는 안 된다는 말이 옳을 수 밖에 없다"(318쪽)고 했다.

데이터 시대는 이미 시작됐다. 현재 우리는 기록되고 있다. 모든 변화가 그렇듯 두려운 일이다. 하지만 차가운 회색 정부와 물리치기 힘든 핫핑크색 상업주의 사이에는 지나치게 화려하지도, 닫히지도 않은 길이 있다. 바로 조종이 아닌 지식을 위해, 감시가 아닌 탐구를 위해, 억제가 아닌 보호를 위해, 노출이 아닌 이해를 위해 그리고 무엇보다 우리의 삶을 공유함으로써 세상이 우리에게 준, 값을 매길 수 없이 귀중한 선물에 보답하고 더 좋은 삶을 만들기 위해, 또한 길가메시와 람세스의 시대부터 오늘날까지 이어져 온 자신의 이름을 비석이 아닌 기억의 일부로 남기고자 하는 모든 이들의 오래된 소망을 이루기 위해 데어티를 이용하는 길이다. (323쪽)

덧붙이는 글 | <빅데이터 인간을 해석하다>(크리스티안 루더 지음 / 다른 펴냄 / 2015.7. / 16,000원)
이 기사는 이민희 시민기자의 개인 블로그(http://blog.yes24.com/xfile340)에도 함께 실렸습니다. 오마이뉴스는 본인이 직접 작성한 글에 한해 중복 게재를 허용하고 있습니다



빅데이터 인간을 해석하다 - 우리는 어떻게 연결되고, 분열하고, 만들어지는가

크리스천 러더 지음, 이가영 옮김, 다른(2015)


태그:#빅데이터, #데이터 과학
댓글
이 기사가 마음에 드시나요? 좋은기사 원고료로 응원하세요
원고료로 응원하기

작은 시골 농촌에서 하루 하루 잘 살기 위해.




독자의견

연도별 콘텐츠 보기