‘산호세 허위 스펙 네트워크’의 학생들은 실제 설문이나 조사를 하지 않았으면서 마치 조사를 한 것처럼 데이터를 위변조하는 방식으로 거짓 연구 논문을 만들거나 다른 연구자가 수집해 검증한 모집단과 추출한 표본은 물론 결괏값까지 그대로 베껴와 마치 자신들이 조사한 논문인 양 꾸몄다. 이런 데이터 위조와 조작은 가장 심각한 형태의 연구 부정행위다.
출처 불명 데이터와 뒤죽박죽 ‘복·붙’
‘산호세 허위 스펙 네트워크’ 학생들은 2021년, 미국 베이 지역의 아시아계 미국인에 대한 혐오 범죄의 특징을 조사하고 아프리카계 미국인의 혐오 범죄와 비교 분석한 논문을 발표했다. 실제 범죄 데이터를 수집해 분석한 실증 연구다. 저자는 모두 7명, 1저자는 한동훈 법무부 장관의 처조카였다.
학생들이 밝힌 조사 방법은 두 가지다. 첫째 ‘2019년과 2020년 사이, 베이 지역에서 일어난 인종적 범행 동기에 의한 소수집단 범죄와 사회 경제적 요인을 조사’했다고 밝히고 그 결과로 ‘아시아인을 대상으로 한 혐오 범죄는 뉴욕에선 3건에서 28건, 로스앤젤레스에선 7건에서 15건으로 증가했다고' 썼다. 그리고 학생들은 혐오 범죄 발생 건수는 1년 사이에 150% 늘었다고 적었다. 잘못된 계산이다. 10건에서 43건으로 증가했다면, 증가율은 150%가 아니라 330%로 적어야 한다.
이런 기초적 계산의 실수보다 더 심각한 건 혐오 범죄 발생 데이터를 어디서 어떻게 수집해 조사했는지 설명이 따로 없다는 점이다. 학생들이 언론 보도를 통해 조사한 것일까? 학생들의 논문 참고 문헌에는 미국 CNN의 2021년 3월 18일 자 보도를 인용하고 있다.
CNN 보도에는 뉴욕 경찰국과 로스앤젤레스 경찰국이 발표한 범죄 현황이 나온다. 학생들이 조사했다는 내용과 같은 내용이다. 그러나 이 CNN 보도 역시, 범죄 발생 건수만 언급할 뿐 발생지역, 시간 등 상세한 범죄 정보에 대해서는 보도하지 않았다.
▲ 산호세 네트워크 학생들 논문 ‘Screening of the Characteristics of Hate Crimes against Asian American and Comparison to African Americans in Bay Area’ 방법론 중 일부. 아래 CNN보도의 내용과 일치한다.
▲ 미국 CNN 2021년 3월 18일 자 보도 ‘Why hate crime data can't capture the true scope of anti-Asian violence’ 중 일부
두 번째, 학생들은 ‘2008년부터 2019년까지 샌프란시스코 경찰국 범죄 보고서’ 데이터를 사용해 상관관계를 분석했다고 밝혔다. 샌프란시스코 경찰국의 보고서 역시 CNN 보도와 마찬가지로 범죄에 관한 상세 데이터는 제공하지 않는다. 요약정리한 통계 자료만 공개된다.
▲ 산호세 네트워크 학생들 논문 ‘Screening of the Characteristics of Hate Crimes against Asian American and Comparison to African Americans in Bay Area’ 방법론 중 일부
즉 학생들이 범죄 간의 상관관계 분석에 사용한 범죄자와 피해자의 성별, 나이, 주거 형태에 대한 정보는 물론 범죄 발생 시간, 장소 등 범죄에 대한 세부 데이터는 공개하지 않고 있다. 학생들은 이 정보를 대체 어디서 얻었을까. 다른 연구자가 수집해 검증한 범죄 통계를 베끼고 조작해 논문을 만들었다.
데이터를 수집하지도, 분석하지도 않은 채 다른 연구자들의 자료를 베껴 자신들이 조사하고 분석한 것처럼 보이기 위해 논문의 데이터를 조작하다 보니 곳곳에서 엉터리 계산이 발견된다.
학생들은 통계 분석 방법의 하나인 ‘회귀분석’을 통해 아시아계 미국인과 아프리카계 미국인의 혐오 범죄 피해자 간 상관관계를 나타내는 표를 만들었다. 그런데, 수치를 확인해보니 6개 중 3개가 맞지 않았다. 통계와 수치 계산에 관한 기초적 지식과 이해 없이 데이터를 조작한 결과다.
두 데이터 간의 상관 여부를 판단할 수 있는 ‘승산비’는 계수와 연관돼 있다. 때문에 계수(B) 값을 수정했다면 승산비(Exp(b)) 값도 이를 반영해 수정돼야 한다. 승산비(Odds Ratio)는 두 사건 사이 발생할 수 있는 연관성을 수량화하는 통곗값을 뜻한다.
▲ 산호세 네트워크 학생들 논문 ‘Screening of the Characteristics of Hate Crimes against Asian American and Comparison to African Americans in Bay Area’ 방법론 중 피해자 간 상관관계 분석. 승산비 계산 3군데가 잘못됐다.
잘못된 데이터 값이 어떻게 나온 것인지 학생들이 표절한 원논문을 찾아봤다.
학생들은 미국 학자들이 2021년 발표한 아시아계 미국인에 대한 혐오 범죄의 특성을 분석한 논문 ’Hate Crimes against Asian Americans’의 데이터를 베끼면서 범죄자 연령대, 발생 지역, 발생 시간 등 각종 통계를 뒤죽박죽으로 가져왔다.
범죄 지역·시간·연령 데이터 뒤죽박죽 변조
원논문에 나오는 범죄자의 성별(남성, male) 데이터를 피해자 연령(age) 18세 미만 데이터 자리에 가져다 놨다. 범죄 발생 상업 지역(area) 데이터는 피해자 연령(age) 18에서 34세 구간의 데이터로 옮겨놨고, 범죄자 연령(age) 18에서 34세 구간 데이터는 피해자 성별 중 남성(male) 데이터로, 범죄 발생 시간대(time)에 속한 데이터는 피해자 연령(age) 35세에서 64세 구간 데이터로 바꿔놨다.
이렇게 뒤죽박죽으로 옮기던 중, 음수(-)를 양수(+)로 착각해 마이너스 부호를 빼고 수치를 잘못 적기도 했다. 범죄 피해자의 주거 데이터는 아예 여러 항목의 데이터를 뒤죽박죽 짜깁기해놨다. 이렇게 데이터를 엉망으로 짜깁기한 결과, 학생들의 논문에 나오는 승산비 계산 11개 중 5개가 틀린 것으로 확인됐다.
▲ 표절 논문(좌)과 원논문(우) 데이터 비교. 원논문 범죄자의 성별과 연령, 사건 발생 장소와 시간 등의 데이터를 전혀 다른 변수의 데이터에 붙여 놓음.
엉터리 계산은 또 있었다. 논문의 결론 부분에서 학생들은 범죄자 데이터를 분석한 결과, 아시아계 미국인들에 대한 증오 범죄는 백인 범죄자들보다 백인이 아닌 범죄자들에 의해 발생할 가능성이 더 높다는 결론을 내리고 있다. 그런데 비교한 두 데이터의 값이 똑같다. 이렇게 엉터리로 조작된 논문은 현재 온라인 학술지에서 삭제됐다.
▲ 산호세 네트워크 학생들 논문 ‘Screening of the Characteristics of Hate Crimes against Asian American and Comparison to African Americans in Bay Area’ 방법론 중 범죄자 분석
샘플 수는 조작하면서 퍼센티지는 그대로 베껴
미국 캘리포니아 지역의 자폐 아동을 설문 조사하고 분석해 2021년 발표한 학생들의 의학 논문에서도 데이터 조작이 확인됐다. 한동훈 장관의 처조카를 포함해 4명이 논문을 썼다.
논문 4페이지, 표 1은 자폐 아동들이 집에서 사용하는 전자 기기를 조사한 결과를 보여준다. 학생들은 아동 124명을 조사했고 이 중, 집에서 아이패드를 사용하는 아동은 58명으로 파악됐다며 그 퍼센티지를 50.75%라고 적었다. 그런데, 58명은 124명의 50.75%가 아니라 46.77%다. 이것만 잘못된 게 아니다. 이 표 전체의 다른 데이터들도 괄호 안 퍼센티지 비율이 모두 틀렸다.
▲ 표절 논문(상)과 원논문(하) 데이터 비교 - 샘플 개수가 다른데 괄호 안의 퍼센티지 값이 원 논문과 일치
이렇게 엉터리 수치가 나온 이유는 원논문에서 수집한 모집단과 표본의 수치가 학생들의 논문 수치와 완전히 다른데도 결괏값을 그대로 베꼈기 때문이다.
전자 기기 평균 사용 시간을 분석한 표에서도 같은 오류가 나타난다. 평균 시간 옆 괄호에는 앞서 언급한 아동들이 사용이 가능한 전자 기기 항목별 샘플 개수가 들어있는데, 수정한 데이터가 아닌 표절한 원논문의 샘플 개수가 그대로 들어있다. 게다가 학생들은 원논문과 연구 대상과 샘플 개수가 전혀 다른데도 자폐 아동이 전자 기기를 사용하는 시간에 영향을 미치는 변수를 추정한 결과가 소수점 둘째 자리까지 원논문과 똑같은 엉터리 표절 논문을 발표했다.