여론조사 '정확성' 평가...1/3이 당선자 틀렸다

2017년 04월 20일 18시 57분

여론조사는 얼마나 정확한 것일까? 뉴스타파는 2014년 지방선거부터 2016년 총선까지 국내 여론조사기관들이 내놓은 선거 예측이 얼마나 정확했는지 분석했다. 그 결과 조사오차가 평균 9.6%p에 이르렀고 전체 중 36%의 조사는 당선을 맞추지 못하는 수준이었다.

여론조사 얼마나 정확하게 예측했나?

여론조사기관 ‘예측정확성’ 분석(수정오차 기준)

순위조사기관명조사 건수단순 오차수정 오차
1한국CNR/케이엠조사연구소75.12-6.61
2현대리서치연구소93.94-5.02
3케이엠조사연구소385.85-3.51
4순천투데이(전남리서치연구소)56.10-3.45
5에이스리서치105.20-2.85
6폴스미스146.91-2.59
7중앙일보 조사연구팀/엠브레인258.84-2.15
8아이디인큐(오픈서베이)95.75-1.82
9한길리서치센타757.73-1.70
10한국CNR118.81-1.69
11큐리서치56.69-1.69
12한국리서치607.86-1.52
13마크로밀엠브레인1018.46-1.40
14TNS KOREA378.13-0.89
15모노리서치518.69-0.67
16강원도민일보 부설 강원사회조사연구소57.94-0.63
17밀워드브라운미디어리서치978.80-0.62
18포커스컴퍼니279.27-0.57
19리서치앤리서치1269.07-0.23
20중앙일보 조사연구팀419.420.15
21조원씨앤아이369.730.18
22유앤미리서치189.960.18
23리얼미터2969.770.19
24휴먼리서치139.890.31
25메트릭스코퍼레이션88.230.32
26코리아리서치센터13010.530.48
27여민리서치컨설팅2011.070.93
28한국갤럽조사연구소5110.651.05
29비전코리아510.341.26
30리서치플러스3110.261.54
31한국인텔리서치1111.061.67
32충청한길리서치1012.081.82
33대구한길리서치711.121.94
34리서치뷰2111.472.40
35케이에스리서치511.422.86
36폴리컴514.563.45
37윈스리서치1913.353.69
38윈폴(WINPOLL)1515.505.39
39한백리서치연구소614.425.85
40경기동부신문516.356.18
41한국사회여론연구소(KSOI)1817.316.68
42좋은날리서치519.198.98
총합계1,5579.550.00

▲ 분석대상과 기간: 2014년 지방선거 ~ 2016년 총선 사이 선거 예측조사

전체 분석대상 여론조사 1,557건의 단순오차는 평균 9.55%p로 나타났다. 즉, 여론조사들이 선거에서 1위와 2위 후보의 득표율 차이를 평균 9.55%p 잘못 예측한 것이다. 선거별로 단순오차를 보면 2014년 지방선거는 8.5%p, 2016년 총선은 10.6%p였다. 선거구가 작아질 수록 오차는 더 커지는 것으로 나타났다.

선거유형조사 건수단순오차
광역단체장2397.89
교육감1458.35
기초단체장3369.08
국회의원83710.41
총합계1,5579.55

1,557건의 여론조사 중 당선자 예측에 성공한 조사는 996건으로 예측 성공률은 64%였다. 36%인 561건은 당선자를 예측하는 데 실패했다. 당선자 예측에 실패한 조사의 단순오차는 평균 13.65%p로 나타났는데, 이는 당선자를 예측한 조사의 단순오차인 7.23%p보다 두 배 가까이 높은 수치다.

당선자 예측 여부조사 건수단순오차
성공9967.23
실패56113.65
총합계1,5579.55

단순오차를 기준으로 여론조사기관을 평가하는 데는 한계가 있다. 조사기관의 책임으로 볼 수 없는 요인들이 오차를 초래했을 수 있기 때문이다. 뉴스타파는 회귀분석을 통해 조사시점, 표본크기, 선거유형이 미치는 영향을 통제한 뒤 새로운 오차, 즉 수정오차를 계산했다. 수정된 오차를 기준으로 여론조사기관의 예측정확성 순위를 평가한 결과 메이저 여론조사기관이 중위권에 머물러서 회사규모가 크거나 전통이 있다고 더 정확한 것은 아닌 것으로 나타났다. 조사 건수가 296건으로 가장 많았던 리얼미터의 예측정확성 순위는 중위권인 23위였다. 오랜 전통을 가진 한국갤럽은 이보다 낮은 28위였다. 2015년 기준 리서치업계 매출액 1위인 칸타코리아의 전신인 TNS코리아와 미디어리서치는 각각 14위와 17위로 나타났다. 매출액 2위 한국리서치는 이보다 조금 높은 12위였다.

예측정확성 순위와 조사방법 사이의 관계도 살펴봤다. 유선전화 표집 여부와 자동응답시스템(ARS) 사용 여부에 따라 조사기관을 네 그룹으로 나눴다. 대부분의 조사를 유선전화를 대상으로 ARS만을 써서 조사하는 회사는 13곳이었는데, 예측정확도 순위가 가장 낮은 기관 10곳 중 6곳이 이 그룹에 속했다. 한편, 무선전화를 혼합해서 조사하는 비중이 상대적으로 높고, 전화면접 비중이 높은 회사는 18곳이었다. 예측이 가장 정확한 회사 10곳 중 6곳이 이 그룹에 속했다.

어떻게 분석했나?

1.오차란?

선거 여론조사가 실제 선거 결과를 얼마나 정확하게 예측했는지는 예측값과 참값의 차이로 평가할 수 있다. 여기서 예측값은 조사기관이 내놓은 지지율이 되고 참값은 실제 투표에서 얻은 득표율이 된다.

조사오차 = 예측값(여론조사 지지율) - 참값(선거 득표율)

2. 데이터 수집

지지율, 즉 여론조사기관들의 선거예측 데이터는 중앙선거여론조사심의위원회(여심위) 홈페이지에서 수집했다. 2014년 3월 여론조사 결과 등록 제도가 시행된 이후 2017년 4월 16일 현재까지 여심위 홈페이지에 등록된 조사건수는 3,396개였다. 이 가운데 선거일로부터 4주 이내에 조사된 여론조사는 모두 1,557건이었다. 여심위 홈페이지의 첨부파일을 열어 일일이 확인하는 수작업을 거쳤다. 득표율, 즉 실제 투표에서 각 후보가 얻은 득표율 데이터는 중앙선거관리위원회가 관리하는 선거통계시스템에서 가져왔다.

선거명조사 건수
제6회 전국동시지방선거705
2014년 상반기 재·보궐선거54
2015년 상반기 재·보궐선거26
제20대 국회의원선거757
2016년 재·보궐선거15
총합계1,557

3. 단순오차

개별 후보들의 지지율과 득표율을 바로 비교하기는 어렵다. 여론조사에서는 ‘지지후보가 없다’는 등의 무응답이 있지만 실제 투표에서는 없기 때문이다. 이같은 문제를 해결하기 위해 학계에서는 후보간 지지율의 차이를 예측값으로, 같은 후보간의 득표율 차이를 참값으로 보고 그 차이를 계산해 여론조사의 정확성을 평가하는 경향이 있다. 뉴스타파는 선거에서 당선자와 2위 후보의 득표율 차이와 같은 후보들의 여론조사에서의 지지율 차이를 비교해 오차를 계산했다.

단순오차 = |(선거 1,2위 후보간 여론조사 지지율 차이) – (선거 1, 2위 후보간 득표율 차이)|


4. 수정오차

단순오차를 기준으로 여론조사기관을 평가하는 데는 한계가 있다. 여론조사기관의 책임으로 볼 수 없는 요인들이 오차를 초래했을 수 있기 때문이다. 대표적으로 고려되는 요인이 바로 조사가 이뤄진 시점이다. 선거일에 가까운 조사일수록 더 정확할 가능성이 높다. 또 선거 유형과 표본크기도 오차에 영향을 미치는 요인으로 알려져 있지만 조사기관의 책임으로 볼 수 없는 요인들이었다. 뉴스타파는 이 세 가지 요인이 오차에 미치는 영향을 통제하기 위해 회귀분석을 수행하고, 각 조사별로 잔차 값을 계산하는 방식으로 ‘수정오차’를 계산했다.

회귀분석의 종속변인으로는 ‘단순오차’, 독립변인으로는 조사일과 선거일 사이의 거리, 표본크기, 선거 유형이 사용됐다. 미국의 여론조사전문매체인 파이브서티에이트(FiveThirtyEight)이 적용해 공신력을 인정받은 방식이다. 조사업계와 학계에서 사용되는 다른 지표들과 비교한 결과 타당성에 문제가 없다고 판단했다.

※분석 결과에 이견이 있거나 개선사항을 제안하고 싶은 경우, 최문호(bird@newstapa.org) / 김강민(kangminq@newstapa.org)에게 연락바랍니다.


취재: 최문호, 김강민, 최윤원, 연다혜
촬영: 김남범, 최형석
편집: 이선영
자료 입력: 김현우, 이수련

관련뉴스