데이터 통해 고정관념 깰 수 있어…꾸준히 데이터 모으고, 새로운 발상 하려는 노력 필요

'빅 데이터'는 말 그대로 '커다란 데이터'라는 뜻이다. 최소 수만 건에서 수억 건에 이르는 데이터를 재구성해 과거를 분석하고 미래를 예측하는 기법이다. 예를 들어 지난 수십 년간의 교통사고 데이터를 모두 모으고, 교통사고 지점을 지도에 점으로 표시하면 사고 밀도가 높은 곳이 확연히 드러난다. 따라서 우회도로 개설이나 도로 정비 계획에 긴요하게 쓰일 수 있다.

IT 기술이 눈부시게 발달하고, 공공 데이터가 늘어나면서 빅 데이터를 수집하고 활용하는 기술 또한 크게 늘고 있다. 언론진흥재단에서는 지난 17~18일 '빅 데이터를 활용한 디지털 저널리즘'이라는 주제로 빅 데이터를 언론사에서 활용할 방안을 모색하는 연수를 개최했다.

데이터 재구성 '흐름 분석'…새로운 사실 밝혀내기도

빅 데이터는 새로운 사실을 밝혀주는 핵심 자료가 된다. 예를 들어 '국제결혼'이라는 단어를 연상하면, 농촌 총각이 중국 혹은 동남아 아내를 만나는 것을 생각하기 쉽다. 그러나 최근 15년 치 결혼 데이터를 빅 데이터 분석업체인 '뉴스젤리'가 분석해 본 결과 서울과 경기도가 압도적으로 국제결혼 1, 2위를 차지했다. 이어 부산, 인천, 경남이 3~5위를 차지해 '농촌 총각이 국제결혼을 많이 한다'는 생각은 근거가 없는 것으로 나타났다.

국제결혼은 2005년(3만 719건)을 정점으로 점차 줄어들어 2014년엔 1만 6152건으로 크게 줄었다. 특히 2005년과 2007년을 기점으로 국제결혼 추세가 크게 줄어들고 있다. 원인은 무엇일까? 분석 결과 2007년 방문취업제 도입, 결혼 이민자에 대한 비자 발급 심사 기준 강화가 큰 영향을 준 것으로 드러났다.

그럼에도 서울시 강남구는 국제결혼이 거의 줄어들지 않고 있다. 이는 외국인 남편과 결혼 건수가 크게 늘어났기 때문인데, 주로 미국·캐나다·호주·프랑스 등 선진국 남성과 결혼이 늘고 있기 때문이다. 이에 따라 서울 고소득층은 결혼 대상으로 선진국 남성 선호도가 높아지고 있다는 것을 추론할 수 있다.

빅 데이터는 시사적인 이슈 외에도 사람들의 생활을 구체적으로 파악할 수 있게도 한다. 다음소프트에서 트위터 게시글을 분석해 본 결과 추석 전날에는 보름달과 TV 프로그램에 대한 언급이 높았다. 추석 당일이 되자 보름달에 대한 언급은 8분의 1 수준으로 크게 떨어지고, TV 프로그램에 대한 언급도 절반 이하로 떨어진다.

반면 음식에 대한 언급이 크게 늘어난다. 친지들과 음식을 먹고 대화를 나누느라 보름달을 보거나 TV를 볼 여유가 없는 것으로 분석된다. 추석 다음날부터는 친구와 여행에 대한 언급이 늘어난다. 이를 토대로 한국인이 추석 연휴를 어떻게 보내는지 파악할 수 있다.

철저한 검증 가장 중요…섣부른 결론 경계해야

그러나 빅 데이터가 만능은 아니다. 데이터 검증을 철저히 하지 못할 경우 섣부른 결론을 내릴 수 있다. 예를 들어 아이스크림 매출액과 강력 범죄 증가율 그래프는 정확하게 일치한다. 따라서 '아이스크림 때문에 강력 범죄가 늘어난다'는 황당한 결론이 나올 수도 있다.

데이터를 의도적으로 왜곡하는 경우도 가능하다. 미국 살인사건 사형 판결률을 살펴보면 백인 용의자에 대해서는 11.0%, 흑인 용의자에 대해서는 7.9% 사형 판결을 내린다. 이 수치만 보면 적어도 미국 법원에서 흑백 차별은 사라진 것처럼 보인다. 그러나 세부 데이터를 살펴보면 흑인이 백인을 살해한 경우 사형 판결률은 22.9%로 크게 높아진다. 반면 백인이 흑인을 살해한 경우 사형 판결률은 1% 미만에 불과하다.

또 다른 예로 얼마 전 새누리당 김무성 대표가 '포털사이트가 너무 편향적으로 기사를 내보내고 있다'고 경고하고 나선 점을 들 수 있다. 메르스 사태 전후로 포털사이트가 내보낸 기사를 모두 검토해 본 결과 네이버의 경우 여당에 긍정적인 기사는 4건에 불과하고 부정적인 기사가 80건에 달했으며, 포털 다음도 긍정적인 기사는 7건에 불과하고 부정적인 기사는 67건에 달했다. 김 대표는 이를 근거로 '포털이 편향적이다'라는 결론을 이끌어냈다.

그러나 김 대표가 말하지 않은 데이터가 있다. 당시 네이버는 야당에 긍정적인 기사 1건, 부정적인 기사 55건을 내보냈으며, 다음도 야당에 긍정적인 기사 9건, 부정적인 기사 61건을 내보냈다. 결국 여야 모두 비판적으로 내보낸 셈이다.

기사 질 향상에 큰 도움…색다른 발상 결합 필요

이렇듯 빅 데이터는 쓰기에 따라서 기사의 질을 크게 높일 수 있다. 그러나 국내 언론 가운데 뉴스타파, KBS를 제외하고는 빅 데이터를 제대로 활용하는 곳을 찾기 어렵다. 나머지 언론사들은 정부 데이터를 그대로 발표하거나, 이미 알려진 데이터를 그래프나 지도 등으로 표현한 것에 불과하다.

뉴스젤리 임준원 대표는 "일반인들이 정보 공개 청구를 통해 데이터를 확보하기는 매우 어렵지만, 언론사의 경우 해당 기관에 청구하면 바로 데이터를 얻을 수 있다. 이런 점을 살려 최대한 다양한 데이터를 확보하려는 노력부터 필요하다"고 했다.

황성진 소셜노트 대표는 "영남지역 언론사는 새누리당 공천 신청자의 데이터를 최대한 확보해, 어떤 부류 사람들이 주로 공천을 받는지 분석해 볼 필요가 있다. 이런 분석을 토대로 선거 취재를 한다면 독자들에게 큰 도움을 줄 수 있을 것이다. 색다른 발상과 빅 데이터를 결합할 필요가 있다"고 밝혔다.

기사제보
저작권자 © 경남도민일보 무단전재 및 재배포 금지