4년 전보다 여론조사 정확해졌다... '샤이보수'가 과제

2020년 04월 28일 17시 33분

21대 총선 여론조사 정확도가 20대 총선에 비해 크게 높아진 것으로 나타났다. 그러나 일부 지역에서는 이른바 ‘샤이보수’ 성향의 답변자로 인해 예측이 빗나가는 등 한계도 드러났다. 이 같은 사실은 뉴스타파가 중앙선거여론조사심의위원회 사이트에 올라온 21대 총선 여론조사 결과 453건과 2016년 20대 총선 여론조사 결과 763건을 비교 분석한 결과 확인됐다.

당선자 예측 정확도 20대 총선에 비해 20%p 상승

21대 총선 선거일 4주 동안 서울 종로구 유권자를 상대로 시행된 여론조사는 모두 13건이다. 여론조사 결과 더불어민주당 이낙연 후보 지지율은 최소 48.3%부터 최대 63.5%로 나왔다. 반면 미래통합당 황교안 후보 지지율은 가장 높을 때는 39%, 낮을 때는 26.7%였다. 13건의 여론조사 모두 이낙연 후보가 여론조사 오차범위를 넘는 큰 차이로 당선될 것을 전망했다. 실제 선거 결과는 이 후보 득표율 58.38% 대 황 후보 득표율 39.97%. 여론조사 예측치와 다르지 않았다.


4년 전인 2016년 종로에서는 더불어민주당 정세균 후보와 새누리당 오세훈 후보가 맞붙었다. 정 후보는 52.6% 표를 얻어, 득표율이 39.72%에 그친 오 후보를 13%p 가까운 차이로 따돌리고 당선됐다. 여론조사는 어땠을까?

KBS, 연합뉴스 의뢰를 받은 코리아리서치센터가 2016년 3월 20일부터 22일까지 조사한 결과 정세균 후보 지지율은 28.5%, 오세훈 후보 지지율은 45.8%였다. 오세훈 후보가 조사 오차범위를 넘는 압승을 거둘 것으로 본 것이다. 이처럼 예측이 틀린 여론조사가 대부분이었다. 20대 총선 선거일 4주 안에 시행된 종로구 여론조사는 모두 12건이었는데 이 가운데 정 후보 당선을 맞춘 여론조사는 단 3건뿐이었다.

2016년 20대 총선 당시 여론조사업체들은 새누리당이 150~170석 이상을 얻으며 압승할 것이라고 예측했다. 그러나 예측과는 달리 새누리당은 실제 투표에서 122석을 얻어 123석을 확보한 더불어민주당에게 국회 제1당을 넘겨줬다. 20대 총선 선거일 4주간 시행된 여론조사는 모두 763건이다. 이 가운데 당선자를 맞추는 데 성공한 조사는 464건, 여론조사의 당선자 예측 정확도는 약 60.8%였다.

이번 21대 총선 여론조사는 달랐다. 선거일 4주 동안 시행된 여론조사 453건 중 366건이 당선자를 맞추는 데 성공했다. 예측 정확도는 80.8%였다. 4년 전에 정확도가 20%p 높아졌다.

이번 총선에서 종로구 경우는 조사기관 입장에서 당선자를 맞추기가 쉬운 편이었다. 실제 투표 결과 1위와 2위의 득표율 차이가 매우 크게 나왔기 때문에 여론조사에서 약간의 오차가 있어도 당선자를 맞출 수 있었다. 보통 500명 정도의 표본을 조사하는 국회의원 지역구 선거의 표본오차는 95% 신뢰수준에서 ±4.4%다. ‘실제 종로구 유권자들의 지지율’이 ‘여론조사에서 나온 각 후보 지지율’보다 4.4%p 범위 밖에 있다는 것이다. 만약 1, 2위 후보가 이 범위 안에서 경합을 벌이고 있다면, 조사기관이 승패를 맞추기 어렵다.

예를 들어 경남 양산을에서는 더불어민주당 김두관 후보(득표율 48.94%)가 미래통합당 나동연 후보(득표율 47.26%)를 1.68%p 차 격전 끝에 이겼다. 이 선거구에서 시행된 8건의 여론조사 중 김 후보 승리를 맞춘 조사는 3건, 나 후보 승리를 전망한 조사가 5건이었다.

뉴스타파 데이터팀은 이번 총선이 치러진 253개 지역구를 ‘격전지’ 여부에 따라 나누고, 여론조사의 예측 정확도를 분석해 봤다. 1, 2위 후보 간의 득표율 차이가 4.4%p 이하인 ‘격전지’는 모두 35곳. 전체 지역구 중 14%를 차지한다. 이곳에 21대 총선 지역구 여론조사 전체의 28% 수준인 여론조사 129건이 몰렸다. 득표율 차이가 4.4%p는 넘지만 8.8%p 이하인 37개 지역구에서는 75건의 조사가 시행됐다. 득표율 차이가 8.8%p를 넘는 지역구는 181곳인데, 여론조사는 249번 시행됐다.


1위와 2위 후보 간 득표율 차이가 8.8%p를 넘는 것으로 나온 선거구에서 여론조사 예측 정확도는 96%로 나타났다. 거의 다 맞췄다는 뜻이다. 득표율 차이가 4.4%p에서 8.8%p 범위에 있는 지역구에서는 예측 정확도는 77%로 나타났다.

하지만 1, 2위 후보간의 득표율 차이가 4.4%p 미만이었던 129개 여론조사의 당선자 예측 정확도는 53% 였다. 동전을 던지고 앞면이 나올지, 뒷면이 나올지를 예측했을 때 맞출 확률과 비슷한 수준이다. 해당 선거구의 조사는 신뢰구간의 표본오차 범위(500명 규모 조사에서 4.4%) 보다도 득표율 차이가 적기 때문에 사실상 당선자 예측이 어려웠다.


조사오차는 20대 총선보다 4%p 감소

여론조사가 선거 결과를 정확하게 예측했는지 평가할 때 가장 눈에 띄는 것은 당선여부나 순위를 맞췄는지 여부다. 그러나 당선자 예측 여부는 여론조사를 정밀하게 평가하기에 부족하다.

부산 남구을에서는 더불어민주당 박재호 후보(득표율 50.5%)가 미래통합당 이언주 후보(득표율 48.74%)를 상대로 1.76%p 차 신승을 거뒀다. 3월 28일부터 30일 사이에 조사된 여론조사 기관 ‘입소스’의 여론조사는 박 후보가 51.2%의 지지율로 이 후보(37.6%)를 오차범위 밖에서 이길 것으로 전망했다. 반면, 3월 20일부터 21일까지 조사된 여론조사기관 ‘폴리컴’의 여론조사는 이 후보(42.6%)가 박 후보(40.5)와 오차 범위에서 접전을 벌이는 것으로 파악했다.

‘입소스’ 여론조사는 당선자와 당선자의 득표율은 맞췄지만, 2위 후보 득표율은 놓쳤다. 한편, ‘폴리컴’ 여론조사는 당선자를 맞추지는 못했지만, 경합 여부를 맞췄다. 어떤 조사가 선거구의 실제 지형도를 더 정확하게 반영했을까?

여론조사가 선거 결과를 얼마나 정확하게 예측하는지를 평가하는 지표가 조사오차다. 여론조사를 통해 측정한 예측치에서 참값인 실제 투표 결과를 빼는 식으로 계산한다. 단, 학계에서는 후보 지지율과 득표율을 직접 비교하지 않는 편이다. 아직 선거에서 투표할 후보를 결정하지 않은 부동층이 여론조사 질문에 ‘모름’이나 ‘무응답’을 선택하는 등 여론조사 지지율은 득표율보다 수치가 낮게 나타날 수도 있다.

뉴스타파는 미국의 정치전문매체 파이브서티에잇과 국내외 학계 등에서 사용되는 ‘지지율 격차’를 이용해 조사오차를 계산했다. 1위 후보의 지지율에서 2위 후보의 지지율을 뺀 격차를 예측치로 본다. 또 1위 후보의 득표율에서 2위 후보의 득표율을 뺀 값이 참값이 된다. 뉴스타파는 지난 2017년에도 같은 방식으로 여론조사 예측 정확도를 계산해 보도한 바 있다.

조사오차 = | (선거 1,2위 후보간 여론조사 지지율 차이) – (선거 1, 2위 후보간 득표율 차이) |

이 방법으로 평가한 입소스 여론조사의 조사오차는 11.84%p, 폴리콤 여론조사의 조사오차는 3.86%p다. 이렇게 하면 폴리콤 여론조사의 예측 정확도가 더 높이 평가된다.

21대 총선 여론조사 453건의 조사오차는 평균 6.9%p로 나타났다. 1위와 2위 후보의 득표율 차이를 평균 6.9%p 잘못 예측한 것이다. 20대 총선 여론조사의 조사오차는 평균 10.6%p였다. 20대 총선에 비해 조사오차는 약 4%p 감소했다.

여론조사 전문가들은 대통령 선거나 광역단체장 선거보다 선거구가 작게 나뉘는 국회의원 선거가 투표 결과 예측이 가장 어려운 선거라고 평가한다. 선거구의 유권자 수가 적을 수록 성별·연령별·지역별 비례를 맞춰 표본을 만드는 게 어렵기 때문이다.

국회의원 선거 여론조사의 조사오차가 평균 6.9%p로 나타난 것은 이례적이다. 선거구가 훨씬 넓은 광역단체장 선거의 조사오차보다도 작기 때문이다. 지난 2014년 제6회 전국동시지방선거에서 서울시장 등 광역단체장 선거의 조사오차는 평균 7.9%p였다.

유선전화 조사 정확도 떨어져…

21대 총선 여론조사가 과거 선거 여론조사보다 전체적으로 정확해졌지만, 여전히 정확도가 떨어지는 조사도 있었다. ‘유선전화’ 표집 비율이 높은 조사들이다.

로이슈 의뢰를 받은 데일리리서치는 4월 4일부터 5일까지 이틀 동안 서울 강동구갑 지역구에서 여론조사했다. 미래통합당 이수희 후보가 47.5%, 더불어민주당 진선미 후보가 41%를 얻어 이 후보가 오차범위 밖에서 이기고 있는 것으로 나타났다. 강동구갑 지역에서는 선거일 4주 이내에 이 조사 말고 다른 조사가 없어서, 여론조사만 보면 강동구갑 판세가 이수희 후보에게 유리한 것처럼 보였다. 그러나 선거 결과는 달랐다. 진선미 후보는 51.5% 득표율로 47.7% 표를 얻은 이수희 후보를 꺾고 당선됐다. 조사오차는 10.3%p다.

오차가 커진 이유가 뭘까? 21대 총선에서 유무선 혼합 방식으로 조사한 여론조사에서 유선전화 비율은 평균 20% 수준이다. 데일리리서치 조사는 표본에서 유선전화가 차지하는 비율이 46%로 평균보다 높다.

4년 전인 20대 총선 여론조사 763건 중 430건으로 절반이 넘는 비중(56%)을 차지했던 유선전화 추출 방식은 21대 총선에서는 단 11건(2%)에 그쳤다. 20대 총선 당시 100% 유선전화만 추출한 여론조사의 조사오차는 평균 11.1%p였다.

유선전화의 오차가 높은 것은 21대 총선에서도 마찬가지다. 21대 총선에서 100% 유선전화만 추출한 여론조사의 조사오차는 4년 전보다 2%p 높아진 평균 13.5%p였다. 단, 21대 총선에서 유선전화만 조사한 경우는 단 11건에 불과해 4년 전과 단순비교하기 어렵다.

‘휴대전화 가상번호’ 제도 활용으로 표본의 대표성 높아져

이제 조사업계에서는 유선전화보다는 무선전화 가상번호를 더 선호한다.

21대 총선에서 여론조사기관들이 무선전화만 조사한 경우는 33건(7.3%), 유선전화만 조사한 경우는 11건(2.4%)이다. 대부분 조사 표본을 유선전화와 무선전화 혼합 방식으로 추출했다. 유무선혼합 방식은 전체 453건 조사 중 90%인 409건에서 사용됐다. 평균적으로 무선전화가 표본에서 차지하는 비율은 80%, 유선전화가 표본에서 차지하는 비율은 20% 수준이다. 김동영 한국사회여론연구소 기획실장은 뉴스타파와의 통화에서 “기존에는 유선전화로만 조사하다보니 부정확한 면이 많았다. 2018년 지방선거부터 휴대전화 가상번호를 쓰게 되면서 정확도가 높아졌다”고 말했다.

‘휴대전화 가상번호’ 제도는 중앙여론조사심의위원회의 관리하에 선거여론조사기관이 이동통신사업자에게 이용자의 휴대전화번호가 노출되지 않도록 생성한 번호를 제공할 것을 요청할 수 있고 이를 이용하여 여론조사를 수행할 수 있도록 하는 제도다. 조사기관은 이동통신사별, 성별·연령대별·지역별로 휴대전화 가상번호를 요청해 제공받는다.

표본 추출틀이 유선전화에서 무선전화로, 특히 표본의 대표성을 확보하기 쉬운 가상전화 기반으로 옮겨가면서 조사오차도 줄어들었다. 21대 총선 유무선 혼합 방식으로 추출한 여론조사는 평균적으로 6.6%p의 조사오차를 보였다.

영남 지역 중심으로 ‘샤이보수’ 확인

여론조사기관 리서치앤리서치가 동아일보의 의뢰를 받아 3월 28일 실시한 대구 수성구갑 여론조사에서 더불어민주당 김부겸 후보 지지율은 41.3%, 미래통합당 주호영 후보 지지율은 38.3%로 김부겸 후보가 3%p 차이로 앞섰다. 그런데 투표결과 실제 득표율은 김부겸 후보 39.29%, 주호영 후보 59.81%로 주호영 후보가 20.52%p 앞섰다. 이 여론조사의 ‘조사오차’ 값은 23.52%p다. 이 여론조사에서 김부겸 후보의 지지율은 실제 득표율에 비해 (상대적으로) 높게 나타난 데 반해 주호영 후보 지지율은 득표율에 비해 낮게 나왔다.

주호영 후보의 지지율이 득표율에 비해 낮게 나타난 것은 리서치앤리서치 조사만이 아니다. 선거일 4주 이내에 수성갑 선거구에서 시행된 여론조사는 모두 13건. 이중 12건에서 미래통합당 후보의 지지율이 상대적으로 낮게 나타났다. 12건 여론조사의 조사오차 평균 값은 13.15%p다.

이런 현상은 대구 다른 지역 여론조사에서도 관찰됐다. 대구 지역 분석대상 여론조사는 모두 28건이다. 무소속 홍준표 후보가 출마한 수성구을 여론조사 8건을 제외한 나머지 20개 조사는 모두 미래통합당 후보가 더불어민주당 후보와 맞붙은 선거구 여론조사다. 수성구갑 여론조사가 13건, 달서구갑 2건, 달서구병 2건, 북구갑 2건, 북구을 조사가 1건이다. 이중 수성구갑 지역의 여론조사 1건을 제외한 나머지 19건은 모두 미래통합당 후보 지지율이 더불어민주당 후보 지지율에 비해 낮게 반영됐다.

뉴스타파는 1, 2위 후보자가 더불어민주당 또는 미래통합당 소속인 선거구의 여론조사를 따로 분석했다. 보수성향 유권자들이 조사에 응답하지 않거나 응답 시에도 성향을 숨겨 여론조사에 잡히지 않는 이른바 ‘샤이보수’ 현상을 확인하기 위해서다. 조사오차를 계산할 때와 비슷한 방법으로 각 여론조사가 특정 정당 후보의 지지율을 실제보다 높게 반영했는지 확인했다. 단, 1위 후보 지지율에서 2위 후보 지지율을 빼는 식으로 계산하지 않고, 더불어민주당 후보 지지율에서 미래통합당 후보 지지율을 빼는 방식으로 계산했다. 또 계산 결과에 절대값을 취하지 않았다. 오차가 특정 정당 후보 지지율을 더 적게 반영하는지, 많이 반영하는지를 확인하기 위해서다.

정당 조사오차 = (양당 후보간 여론조사 지지율 차이) – (양당 후보간 득표율 차이)

대구 이외에도 과거 선거에서 미래통합당 지지 성향이 강하게 나타났던 경북, 부산, 강원 지역에서도 비슷한 현상이 있었다.

미래통합당 김형동 후보(득표율 47.1%)와 더불어민주당 이삼걸 후보(득표율 26.14%)가 맞붙은 경북 안동시예천군에서는 여론조사가 6건 시행됐다. 6건 중 5건은 미래통합당 후보 지지율이 득표율에 비해 낮게 반영됐다. 5건 조사의 조사오차 값 평균은 6.38%p였다.

경북 전체적으로 봐도 대구와 비슷했다. 경북 여론조사 28건 중 더불어민주당과 미래통합당 후보가 맞붙은 선거구 조사는 22건. 이중 19건에서 미래통합당 후보 지지율은 더불어민주당 후보 지지율에 비해 낮게 나타났다.

강원도 역시 분석대상 여론조사 21건 중 15건이 미래통합당 후보 지지율을 과소반영했다. 부산에서는 여론조사 47건 중 31건에서 같은 현상이 나타났다.

여론조사할 때 전화면접 방식으로 하지 않고, 자동응답 방식(ARS)으로 조사하면 ‘샤이보수’ 현상을 막을 수 있다는 주장도 있다. 일부 유권자가 면접원에게 지지 성향을 밝히기를 꺼려하기 때문에 ‘샤이보수’ 현상이 나타나는데, 자동응답기를 쓰면 이를 피할 수 있다는 것이다. ‘샤이보수’ 현상은 주로 전화면접 방식의 여론조사에서 많이 나타났다.

더불어민주당 박재호 후보(득표율 50.5%)와 미래통합당 이언주 후보(득표율 48.74%)가 대결한 부산 남구을 지역 분석대상 여론조사는 7건이다. 이중 전화면접 방식으로 조사된 3건의 조사는 이언주 후보 지지율을 과소 반영했다. 조사오차는 평균 8.1%p이다. 반면, ARS 방식으로 조사된 4건의 조사에서는 박재호 후보 지지율이 과소 반영됐다. 정당 조사오차는 평균 -2.8%p이다.

전체적으로 살펴보면, 더불어민주당과 미래통합당이 1, 2위로 경합했던 지역구의 여론조사 355건 중 214건은 ARS 방식, 127건은 전화면접방식, 14건은 둘을 혼합한 방식으로 조사됐다. 전화면접 방식 조사 127건 중 101건에서 미래통합당 후보 지지율이 낮게 반영됐다. 조사오차는 평균 5%p 수준이다. 한편 ARS방식 조사에서는 더불어민주당 지지율이 낮게 반영되는 경우(110건)와 미래통합당 지지율이 낮게 반영되는 경우(103건)가 비슷하게 나타났다.


여론조사 전문가들은 이같은 현상을 ‘샤이보수’로 해석할 수 없다고 보는 의견도 많다. 한국갤럽조사연구소 정지연 이사는 “ARS 방식은 응답률이 낮고, 응답률이 낮으면 매우 적극적인 사람들만 응답하게 된다. ARS 조사에는 이런 지지자들의 수치가 반영돼있다고 볼 수 있다”고 말했다. 정 이사는 “‘투표 행동’과 ‘지지’가 서로 다르기 때문에 여론조사에서 지지하지 않아도 선거 당일에는 표를 줄 수 있다”고 설명했다.

전문가들은 공통적으로 여론조사를 해석할 때 전체적인 흐름을 읽는 것이 중요하다고 지적한다. 조사에 나오는 수치를 있는 그대로 믿어서는 안된다는 것이다.

제작진
데이터김강민
디자인이도현
출판허현재

관련뉴스