[기자수첩] 여론조사가 틀리는 이유 ④

데이터베이스 혁신, 데이터 과학의 발전에 기여 과거에는 연령, 지역 등 단순 요소만으로도 투표율 예측 가능 현재는 MZ세대의 다양성 모두 반영하기 어려운 탓에 불일치 증가

대표 표본을 이용한 여론조사는 큰 데이터를 모으기 위해 큰 비용을 지불하지 않아도 되는 경우에만 한정된다. 선거가 대표적인 예시다. 즉 선거처럼 비슷한 성격의 사람들이 비슷한 결정, 아니 같은 결정을 내리는 경우에만 가능하다.

그러나 100가지 다른 상품이 있고, 100명의 다른 성격의 사람이 있다면 여론조사로는 상품과 사람 간의 매칭이 불가능해진다. 사람이 10,000명이 되어도 100개의 다른 상품에 대한 선호도를 찾아내야 하므로 더 이상 우리가 정치권에서 보던 것과 같은 여론조사 정확도를 기대하기 어렵다. 이렇게 몇백 가지 패턴을 찾아내야 하는 경우가 바로 빅데이터 분석이 필요한 경우다.

빅데이터, 100기가 데이터가 아니라 100만 가지 패턴 데이터

그간 IT 업계는 빅데이터를 대용량 데이터, 특히 기존의 데이터베이스 기술로 처리할 경우 병목 현상이 발생해 서비스에 장애가 생기는 대용량 데이터를 빅데이터라고 불러왔다. 빅데이터 대시보드 기반 인터넷 여론 분석 서비스를 제공하고 있는 ㈜파비에 따르면 인터넷 서비스가 확대되면서 기존의 나무형 (Tree형) 데이터베이스 구조가 일반화됐고, 최근 들어서는 유저별 다양한 행동 정보를 추가로 저장, 처리, 관리하기 위해 기존의 데이터베이스보다 더 기술적으로 진화된 다양한 종류의 서비스가 나오게 됐다고 한다.

데이터 과학자들에 따르면 위와 같은 데이터베이스 혁신 덕분에 기존의 통계학을 이용한 대표 표본 추출에 의존하기보다 수십 개의 다양한 패턴을 데이터 속에서 찾아내는 작업이 가능해졌고, 이를 바탕으로 데이터 과학 방법론들이 빠르게 발전하고 분석했다.

여론조사는 공통된 몇 가지 패턴만 찾아내는 도구

카이스트 기술경영대학원의 최호용 교수는 기존의 t-Test나 데이터 과학에서 주로 쓰이는 A/B Test 등은 모두 목적 변수가 1개일 경우에 초점이 맞춰져 있지만, 다양한 변수가 주어져 있고 변수 간 복합상호작용이 있을 경우 단순 통계 검증 방법으로는 한계가 있다고 지적했다. 이렇게 복잡한 상황을 주게 되면 좀 더 복잡한 모델을 만들기 위한 고급 수학에 도전하거나, ‘딥러닝’ 등으로 알려진 현재 주어진 표본 데이터의 구조에 최대한 맞춰보는 비모수(Non-parametric) 분석 방법을 활용할 수밖에 없다는 것이다.

현재 빅데이터라고 불리는 데이터 속에는 기존의 여론조사 등으로 목표했던 단순 선호/비선호 추론뿐만 아니라 선호에 이르게 되는 수많은 복합 절차를 찾아가는 계산이 필요한 만큼 여론조사만으로는 선호 파악에 한계가 있다는 지적도 뒤따른다.

사진=유토이미지

빅데이터 시대, 여론조사가 틀리는 이유

과거에는 연령, 지역, 성별 등 단순 요소들만으로도 충분히 합리적인 지지 후보 성향 및 투표율 등을 예측할 수 있었으나, MZ세대의 경우 좀 더 복합적인 요소가 의사 결정에 영향을 미친다는 분석이 나왔다.

일례로 박원순 전(前) 서울시장이 성 추문에 휘말리다 자살한 이후 치러졌던 2021년 초의 서울시장 보궐선거와 대선 정국을 거치며 남녀 갈등이 더욱 가시화된 2022년 6월 지방 선거 사이의 시간적 격차는 1년 반이 채 되지 않지만, 20대 여성 표심에서 큰 차이를 보였다. 박 전 서울시장이 성 추문에 휘말렸던 2021년 재보궐선거보다 여성 표심 결집이 좀 더 적극적으로 이뤄졌던 2022년 지방 선거 사이, 서울 기준 약 10% 이상의 20대 여성들이 더불어민주당에 지지표를 던지기도 했다.

전문가들은 여론조사의 불일치 요인으로 빅데이터 시대의 도래가 아닌 MZ세대의 다양성을 모두 반영하기 어려울 만큼 복잡성이 증가했기 때문이라고 분석한다. 지난 2016년 대구 수성갑에 김부겸 더불어민주당 의원이 지역 구도를 뛰어넘어 당선된 것만 봐도 MZ세대는 출신 지역에 따라 지지 후보가 크게 갈리는 5060세대의 성향과 다르다는 것을 알 수 있다.

박민규 고려대학교 통계학과 교수는 지난 3월 23일, 2022 대선 이후 열린 세미나에서 “다양성(Heterogeneity)이 증가하는 시대인 만큼 연령, 지역, 성별만으로는 한계가 있다는 것을 여론조사 전문가들도 받아들이고 새로운 도전에 나서야 한다”고 지적한 바 있다. 지금까지의 불일치를 보완하지 못한다면 앞으로는 더 많은 편차와 오류를 가진 여론조사가 될 가능성이 높다는 것이다.

Similar Posts