- 고려대 국가통계전공 연구팀, 다중선형회귀 분석과 매칭 분석
- 영화 ‘더 플랜’ 주장처럼 미분류표 득표율 다른 이유가 분류기 때문인지 검증
- 분류기 때문에 미분류표 득표율 높은 게 아니라 분류표 집단과 다른 집단이기 때문

지난 18대 대선 당시 미분류표에서 박근혜 후보의 득표율이 상대적으로 높게 나온 것은 지지성향과 60대 이상 투표자수의 비율, 그리고 전체 미분류율이 높았던 것과 상관관계가 높았다는 국내 통계학 연구진의 논문이 나왔다.

이 논문은 대선 당시 분류표를 만들어낸 집단과 미분류표를 만들어낸 집단을 동일한 집단이라고 볼 수 없다는 분석 결과를 내놓았다.

고려대 세종캠퍼스 국가통계전공 최보승 교수팀은 이같은 내용을 담은 <개표방식에 따른 득표율 비교 연구:대한민국 18대 대통령 선거 결과를 중심으로>란 제목의 논문을 한국자료분석학회 학회지(2017.12)에 발표했다.

▲한국자료분석학회 학회지에 실린 고대 통계학과 최보승 교수팀의 대선 득표율 연구 논문. 한국자료분석학회 학회지는 한국통계학회, 한국데이터정보과학회의 학회지와 함께 한국연구재단에 등재된 국내 통계관련 3대 학술지 가운데 하나다.

최 교수팀은 논문 서론에서 지난 18대 대선 당시 전희경 미국 조지아서던대 역학과 겸임교수 등이 지난해 4월 개봉한 영화 <더 플랜>을 통해 분류기에 의한 개표에 의문을 제기한 것을 바탕으로 “K값이 1.5가 나온 점에 대한 원인을 찾고 과연 분류기에 체계적인 문제가 있는지를 밝히고자 하는데 그 목적을 두고 있다”고 밝혔다.

최 교수팀은 자료 분석을 위해 다중선형회귀분석과 매칭 분석을 실시했다.

다중회귀분석은 변수가 여러 개인 경우 서로의 상관관계를 알아보는 분석방법을 뜻하는 통계학용어인데 이번 분석에서는 18대 대선에서 박근혜 후보와 문재인 후보의 미분류율의 차이를 반응변수로 하고 지지성향과 60대 이상 비율, 미분류율을 설명변수로 해서 분석이 이뤄졌다.

▲회귀분석 결과 지지성향과 60대 이상 비율, 전체 미분류율의 변수가 모두 통계적으로 유의하며 R-square(결정계수) 가 0.4504로 비교적 높다는 것을 볼 수 있다.(출처:최보승 교수팀 한국자료분석학회 12월 출판 학회지)

그 결과 박근혜 후보에 대한 지지성향이 높을수록, 60대 이상의 투표자 비율이 높을수록, 그리고 전체 미분류율이 높아질수록 두 후보 간의 미분류율의 차이가 증가한다는 분석 결과가 나왔다.

연구팀은 분석에 사용된 데이터가 투표에 참여한 개인들로부터 직접 조사한 자료가 아닌 시군구 선관위 단위로 정리된 자료여서 분류표와 미분류표에서 나타나는 득표율의 차이를 근본적으로 분석하는데는 일정 정도 한계가 따른다고 밝혔다. 비밀투표라는 대선 투표의 성격상 개개인별 투표 결과를 데이터로 확보하는 것은 원천적으로 불가능하다.

이 같은 분석은 지난해 7월 뉴스타파 보도 더플랜인가 노플랜인가...개표부정 의혹 집중 해부에서 고려대 통계학과 박유성 교수가 분석한 내용과 같은 것이다.

그렇다면 분류표를 만들어낸 집단과 미분류표를 만들어낸 집단은 다른 성격을 가진 집단이 아닐까?

연구팀은 비슷한 지역끼리 묶어 짝짓는 매칭(Matching) 분석을 통해 이 같은 가설을 검증했다.

즉, 미분류표의 득표율이 분류표의 득표율과 다른 것은 분류기의 잘못으로 발생한 것이 아니라 미분류표를 만들어낸 투표자 집단이 분류표를 만들어낸 집단과 다르기 때문에 득표율에 있어 차이가 생겼다는 것이다.

분석 방법은 이렇다.

19대 대선 당시 홍준표 후보의 부산 동래구 분류표 득표율은 46.21%였다. 그런데 당시 홍 후보가 대전 대덕구의 미분류표에서 얻은 득표율은 46.23%로 거의 비슷하다. 그렇다면 부산 동래구의 분류표 집단과 대전 대덕구의 미분류표 집단은 서로 동질성이 유지되는 집단으로 짝지을 수 있다.

이렇게 짝지어진 두 곳의 선거구가 동질한 집단이라고 한다면 지난 대선에서도 비슷한 득표율이 나오지 않았을까?

18대 대선 당시 박근혜 후보의 득표율을 비교해보면 박 후보의 부산 동래 분류표 득표율은 61.73%, 대전 대덕구의 미분류 득표율은 60.23%로 비슷하게 나온다.

즉 부산 동래구 분류표에서 홍준표 후보를 찍었던 집단과 대전 대덕구 미분류표에서 홍 후보를 찍었던 집단이 동질한 집단이라는 것이 18대 대선 결과를 통해서도 입증된다는 것이다.

마찬가지로  강릉 동해와 대구 북구의 18대와 19대 대선 결과를 서로 비교할 때도 같은 결과가 나온다.

최 교수팀은 이런 식으로 19대 대선의 전체 251개 선거구 가운데 110개의 매칭된 선거구가 18대 대선에서도 비슷한 결과를 보여주는 것으로 확인했다.

110개 선거구 데이터를 매칭한 뒤 홍준표 후보의 미분류에서의 득표율은 47.10%로 분류표에서의 득표율 46.13%와 큰 차이를 보이지 않았다.

또 매칭으로 재분류한 박근혜 후보의 미분류와 분류 득표율도 각각 57.40%와 58.21%로 통계적으로 의미있는 차이를 보이지 않았다.

최 교수팀은 “지역마다 투표집단의 성격이 다양하기 때문에 분류표와 미분류표 득표율이 서로 차이가 나는 것처럼 보이지만 이번 분석 결과에서 보듯이 통계학적으로 적절한 통제를 가해 분류표 집단과 미분류표 집단의 동질성을 유지한 후에 비교해보면 득표율 차이가 거의 나지 않는다는 것을 알 수 있다”고 설명했다.

즉, 같은 집단일 경우 분류표든 미분류표든 비슷한 득표율을 올렸다는 것으로, 분류표와 미분류표의 차이가 생긴 것은 두 집단의 성격이 다르기 때문이지 분류기에 조작이 있었거나 다른 이유가 있어서가 아니라는 것이다.

▲매칭 분석 결과를 나타난 그래프. X축은 홍준표 후보의 득표율, Y축은 박근혜 후보의 득표율이다. 그래프 상의 검은점은 미분류표를 흰색점은 분류표를 표시한다.대각선 방향의 직선은 홍준표 후보의 득표율을 보정해 만든 직선으로 두개의 직선(분류표 직선과 미분류표 직선)이 거의 일치한다. 또 박근혜 후보의 득표율과도 겹쳐지는 것을 볼 수 있다.(출처:최보승 교수팀 한국자료분석학회 12월 출판 학술지)

논문에 교신저자로 참여한 고려대 세종캠퍼스 국가통계학과 최보승 교수는 뉴스타파와의 통화에서 “지난 2008년 미국 뉴햄프셔주에서 열린 민주당 프라이머리 경선에서도 비슷한 의심 사례가 있어 통계학적 분석으로 논란이 해소됐었는데 같은 방법으로 우리나라 18대 대선과 19대 대선을 분석한 것”이라며 이번 논문의 의미를 설명했다.

2008년 미국 민주당 프라이머리 경선 당시 뉴햄프셔주에는 투표용지에 손으로 기표하는 선거구와 터치스크린에 전자방식으로 기표하는 선거구로 나뉘어 있었는데 손으로 기표한 선거구에서는 버락 오바마 후보가 승리했고 전자방식으로 투표한 선거구에서는 힐러리 클린턴 후보가 승리했다. 이 때문에 당시 전자방식 투표에 무슨 문제가 있는 것이 아닌가 하는 의문이 제기됐다.  그러나 통계학자들이 매칭기법으로 이전 뉴햄프셔 선거의 득표율을 선거구별로 매칭시켜 분석해본 결과 원래 그 지역 집단의 특징이 투표 결과로 나타난 것이지 투표방식과는 관계가 없는 것으로 증명됐다.

이 같은 연구를 통해 최 교수팀은 “18대 대선과 19대 대선의 경우에도 미분류표에서의 득표율이 분류표와 다르게 나타나는 것은 두 집단 사이에 체계적인 차이가 존재하고 그 차이에 의해서 서로 다른 득표율이 나타나는 것이며 두 집단이 적어도 투표행위에 있어서는 동일한 집단이 아니었다고 의심할 수 있을 것”이라고 결론지었다.

이번 논문은 고려대 세종캠퍼스 국가통계전공 박사과정에 있는 김경훈 씨가 제1저자로 참여했으며 같은 학교 석사과정 김기중 씨와 라동현 씨가 각각 제2,제3저자 그리고 같은 학교 최보승 국가통계학과 부교수가 교신저자로 참여했다.

취재 : 최기훈
그래픽:하난희

뉴스타파는 권력과 자본의 간섭을 받지 않고 진실만을 보도하기 위해,
광고나 협찬 없이 오직 후원 회원들의 회비로만 제작됩니다.
월 1만원 후원으로 더 나은 세상을 만들어주세요.