미국 논문 쓰면서 '브라질 주민 데이터' 도용...한동훈 처조카 논문 데이터 위조

2022년 07월 07일 20시 00분

한동훈 법무부 장관의 처조카 최 모 양은 ‘산호세 허위 스펙 네트워크’의 핵심이다. 학생은 올해 봄 고등학교를 졸업했고 미국 유명 사립대학교 통합 치의대 과정에 합격했다.
학생은 논문 10편을 냈다. 그 중 9편을 2021년 한해 몰아서 썼다. 학생이 저자로 등재된 논문 10개 중 미국 캘리포니아 주민들의 구강 건강과 사회·경제적 삶의 질의 연관성을 분석한 논문이 있다. (논문 제목: The Differences in Oral Health-Related Quality of Life among Socioeconomic Groups in California, USA) 
학생이 단독으로 쓴 유일한 논문이다. 2021년 10월 ‘덴티스트리’라는 약탈적 학술지에 실렸다. 이 학술지 홈페이지에 따르면 논문의 출판 비용은 미화 2,200달러(한화 약 285만 원)다. 
이 논문은 학생이 합격한 치의대 통합과정과 직접 관계된 의학 논문이다. 또한 설문 조사 등 데이터를 모아 연구를 수행한 실증 논문이다. 캘리포니아 사람들의 건강 데이터를 어떻게 구했을까. 
학생은 논문에서 데이터 수집 방법을 상세히 설명하고 있다. 우선 2021년 ‘서베이 몽키’라는 설문조사 플랫폼을 이용해 조사를 진행했고, ‘쿠퍼티노 헬스케어앤웰니스센터’에서 데이터를 수집했다고 주장했다. 또 치과 전문의가 캘리포니아 주민 788명의 치아를 검진했다고 밝혔다. 
그러나 이 같은 학생의 주장은 신뢰하기 어렵다. 학생이 쓴 논문 곳곳에서 데이터가 위·변조된 흔적이 발견됐다. 실제로는 설문이나 조사를 하지 않았으면서 스스로 조사를 한 것처럼 데이터를 거짓으로 꾸민 정황이다. 데이터 위조는 매우 심각한 부정행위다. 
이 논문은 학생이 제목에 적은 대로 캘리포니아 사람들의 구강 건강을 연구한다고 돼 있다. 그런데 논문에는 ‘브라질’이라는 단어가 여러 번 등장한다. 논문 후반부에 가면 ‘캘리포니아’는 사라지고 ‘브라질’만 나온다.
▲ 미국 캘리포니아를 조사했다고 주장하는 학생 논문의 결론 부분에는 ‘브라질’을 조사했다는 문장이 8번이나 나온다. 
논문의 핵심인 결론에 해당하는 ‘디스커션‘(Discussion) 즉 논의 부분은 한 페이지 분량도 안 되는데 ‘브라질’이 8번 나온다. 논문 전체에서 초록을 제외하고 ‘캘리포니아’(California)는 7번 언급된다. 심지어 학생은 논문의 결론에 아래와 같은 문장을 써놨다.
이 연구는 브라질에서 인구가 두 번째로 많은 주의 시민을 대상으로 진행되었다. (This study is based on a large representative sample of adults from the second most populous state in Brazil.) 

논문 4쪽 
이 연구는 브라질 성인과 미나스 제라이스주 노인층에 있어 구강 건강이 미치는 삶의 질에 불평등이 존재한다는 중요한 증거를 제시하고 있다. (This study provides important evidence of the existence of inequalities in the impact of oral health on the quality of life among Brazilians adults and elderly individuals living in Minas.) 

논문 4쪽
학생은 미국 캘리포니아 사람을 조사한다고 해놓고 실제로는 1만 킬로미터나 떨어진 브라질 사람들의 건강을 연구한 브라질 논문을 표절했다. 원논문을 베끼면서 ‘브라질’이 들어간 문장까지 복사해 붙여 넣은 실수를 저질렀다. 또 논문에 브라질 화폐 단위를 뜻하는 ‘헤알(reias)’을 써넣기도 했다.  
학생이 표절한 논문은 2019년 브라질 학자가 발표한 논문이다. 제목은 “브라질인의 구강 건강과 관련된 삶의 질에 있어 사회·경제적 불평등에 관한 연구(Socioeconomic Inequalities in Oral Health-Related Quality of Life among Brazilians: A Cross-Sectional Study)"다. 브라질에서 두 번째로 인구가 많은 미나스 제라이스 주민들을 대상으로 연구했다.  
표절 검색 프로그램(CopyLeaks)으로 확인한 두 논문 간의 표절률은 75%이다. 익명을 요구한 논문의 원저자, 즉 브라질 연구자는 뉴스타파에 보낸 이메일 답변에서 표절이 맞다고 밝혔다. 
▲ 학생이 표절한 논문(왼쪽)과 원논문(오른쪽) 간 표절률이 75%에 달한다.
“학생의 논문에는 저희 논문의 여러 개 문단이 포함됐습니다. 학생 논문의 ‘디스커션’ 부분을 보면 미국 상황을 논하지 않고 저희가 연구한 브라질 상황이 나옵니다. 저는 저와 제 공동 저자가 표절당했다고 봅니다. (The paper contains several passages from my work, OOO did not even change the discussion to incorporate articles from the US and plagiarized my work from Brazil. My sense is that my co-author and I have been plagiarized.)” 

브라질 연구자의 이메일 답변 중
학생은 브라질 논문의 문장을 베꼈을 뿐 아니라 데이터를 도용해 조작했다. 학생이 캘리포니아 주민 788명을 대상으로 이들의 가구 소득이 얼마인지 조사했다는 통계가 대표적인 조작 사례이다. 
학생은 논문 3쪽에 조사 대상자 788명의 소득 수준을 분석한 표를 작성했다. 통계표에 따르면 조사 대상자의 절반이 넘는 51.4%의 월 가구 소득이 미화 500달러에서 1,500달러(한화 65만 원~195만 원) 수준으로 조사됐다. 월 가구 소득이 4,500달러 이상이 5.6%에 불과하다고 적었다. 미국 캘리포니아 사람들의 한달 가구 소득이라고 보기에는 지나치게 낮은 액수다.  
▲ 표절 논문에 포함된 미국 캘리포니아 주민들의 월별 가구소득 표. 
미국 인구조사국(Census) 웹사이트에서 확인해보니 2020년 기준 캘리포니아주의 연간 가구 중간소득은 미화 7만 6천 달러다. 한 달로 환산하면 6,500달러(한화 850만 원)가량이다. 학생이 조사했다는 데이터와는 4배 이상 차이가 난다. 
브라질 학자의 원논문에도 조사 대상자의 월별 가구소득 분포를 보여주는 표가 나온다. 소득 구간을 0~500, 501~1500, 1501~2500, 2501~4500, 4501+ 등 5개 구간으로 설정했다. 단위는 브라질 화폐 ‘헤알’이다.  
학생은 브라질 학자가 만든 소득 분포 구간을 그대로 베껴왔다. 또 화폐 단위를 브라질 ‘헤알’에서 미국 달러로 수정하고, 소득 구간별 퍼센티지(%) 수치도 조금씩 바꿔놨다. 
▲ 원논문에서 브라질 조사 대상자들의 월별 가구소득을 보여주는 표 (단위: 헤알). 표절 논문이 원논문에 나오는 소득 구간을 그대로 베낀 것을 알 수 있다. 
뉴스타파는 학생과 부모에게 질의서를 보내 캘리포니아 주민 788명을 대상으로 한 실증 연구를 실제 했는지, 이 논문을 대학 입시에 활용했는지를 물었지만 어떤 답변도 받지 못했다. 
브라질 연구자는 취재진에게 보낸 이메일 답변에서 “이 학생이 합격한 대학과 해당 학생이 나서 (표절) 사안에 관해 설명할 필요가 있어 보인다(explain what happened and their processes)”고 밝혔다. 
뉴스타파는 데이터 조작 논문이 입시에 활용됐는지 공식 조사가 필요하다는 의견서를 학생이 합격한 미국 대학에 보냈다. 
제작진
데이터최윤원
촬영신영철
편집정지성
CG정동우
디자인이도현
웹출판허현재