한동훈 법무부 장관의 장녀가 지난해 국제전기전자기술자협회(Institute of Electrical and Electronics Engineers, IEEE)가 주최한 국제 학술대회에 발표한 논문이 다른 사람이 작성한 글을 무단으로 베껴 만든 것이라는 뉴스타파의 보도와 관련해, IEEE 측이 표절 여부를 조사하겠다고 밝혔다. 지난 5월 뉴스타파가 보도한 지 40여 일 만에 나온 IEEE의 공식 답변이다.
IEEE는 6월 23일 한동훈 장관 장녀의 ‘표절 논문’을 정식으로 조사할 의향이 있느냐고 묻는 뉴스타파의 질의에 대해, “관련 IEEE 담당자가 (논문 표절 여부를) 조사할 것(will be reviewed by the appropriate IEEE authorities)”이라고 답했다. 1884년 설립돼 미국 뉴욕에 사무실이 있는 IEEE는 한국을 포함해 전 세계 150개 나라의 수십만 명을 회원으로 둔 전기·전자·공학 분야의 최대 조직이다.
IEEE, 한 장관 장녀의 ‘표절 논문’ 조사하겠다.
뉴스타파는 지난 5월 7일, 한동훈 장관의 장녀가 북아프리카 알제리에서 열린 IEEE 학술대회에 발표한 논문이 영어 에세이 상거래 해외 웹사이트(UKessays.com)에 올라와 있는 무료 논문을 무단으로 표절한 것이라는 의혹을 확인해 보도한 바 있다.
한동훈 장관의 장녀는 지난해 12월, IEEE의 이름으로 알제리 테베사(Tebessa)에서 열린 국제 학술대회에 논문을 발표했다. 모두 5장짜리 논문으로 의료 분야에서 머신러닝 적용을 주제로 했다. 논문의 제목은 “Machine Learning in Healthcare - Application of Advanced Computational Techniques to Improve Healthcare”이다.
뉴스타파 확인 결과, 한 장관 장녀의 논문은 2018년 11월 에세이 상거래 해외 웹사이트에 올라간 “딥러닝의 개념과 응용(Concepts and Applications of Deep Learning)”의 도입부와 핵심 내용이 거의 동일한 것으로 확인됐다. 표절 검사 프로그램(Copyleaks)에서 조사한 결과, 한 후보자의 장녀와 에세이간의 표절률은 약 56%로 나왔다.
▲한동훈 장관 장녀의 IEEE 논문
심각한 것은 표절 검색 프로그램에 나온 표절률 수치만이 아니었다. 한 장관 장녀의 표절 수법은 단어만 살짝 바꾼 이른바 ‘문장 바꾸기’(paraphrased words) 형태로 이뤄졌다.
예를 들어, “진화했다”(has been evolved)를 “발전했다”(has developed)로, “머신러닝 연구의 새로운 분야”(new field of Machine Learning Research)를 “머신러닝의 새로운 연구 분야”(new field of research in Machine Learning)로 단어 위치를 바꿨다. 또 “사람”(people)이라는 단어를 “개인들”(individuals)로 표현을 달리했지만 뜻은 다 같다.
이러한 표절 수법을 ‘교활한 표절’(sneaky plagiarism)이라고 부른다. 통상 5~7개 단어를 연속해 인용해야만 표절로 인정하는 컴퓨터 프로그램의 적발을 피하려는 ‘꼼수’로 보인다.
지난 5월 보도 당시, 뉴스타파는 한동훈 장관 측에 장녀가 IEEE 알제리 학술대회에 논문을 발표한 경위가 무엇인지, 또 장녀가 쓴 논문이 다른 사람의 자료를 베꼈다는 사실을 사전에 알고 있었는지 등을 물었다.
한 장관 측은 “후보자 장녀의 에세이는 25개의 논문, 문헌을 참고하여 그 출처를 표기한 바 있고, 후보자 장녀 에세이의 주제(헬스케어, Healthcare)와 결론은 언급하신 에세이와는 전혀 상이한 것으로 보인다”는 답변을 보내왔다. 그러니까, 한 장관 측은 장녀의 논문 표절에 대해선 직접적인 답변을 피하면서 장녀의 논문 뒷부분에 해당하는 ‘헬스케어’ 서술 부분은 다른 사람의 논문을 베끼지 않았다는 취지로 해명한 것이다.
과연 그럴까. 뉴스타파는 한 장관 딸의 IEEE 발표 논문에 대한 취재를 이어가던 중, 한 장관의 장녀가 또 다른 논문을 베낀 사실을 추가로 확인할 수 있었다. 지난 5월 취재 당시에는 미처 찾아내지 못했던 논문이었다.
장녀의 국제학술대회 발표 논문 중 ‘헬스케어’ 부분도 표절 밝혀내
뉴스타파가 추가로 찾아낸 에세이 제목은 “Machine Learning in Healthcare”다. 2018년 11월 쓰여진 이 논문은 간호학 관련 에세이 대행 웹사이트(NursingAnswers.net)에 무료로 공개돼 있다.
2018년에 쓰인 이 에세이와 한 장관 장녀가 쓴 논문의 후반부 내용과 대조했다. 그 결과, 내용이 거의 같은 것으로 나왔다. 표절 검사 프로그램으로 확인한 표절률은 47%였다. 그러나 한 장관의 장녀는 이 자료를 베끼면서 출처와 인용 표기는 전혀 하지 않았다.
▲ 한 장관 딸의 논문 뒷부분과 일치하는 이 에세이는 해외 간호학 관련 에세이 대행 웹사이트에 무료로 공개된 것이다.
두 개의 서로 다른 논문 짜깁기해 국제 학술대회 논문으로 발표
한 장관 장녀는 헬스케어를 서술한 뒷부분도 앞부분과 마찬가지로 ‘교활한 표절’(sneaky plagiarism) 방식으로 표절했다. 기계적인 방식으로 확인한 표절률은 50% 이하로 나왔지만, 논문의 전개 방식, 핵심 논지, 결론은 같았다. 비슷한 뜻의 단어로 고치고, 순서를 바꿔놓은 방식이었기 때문이다. 예를 들어, 아래의 두 개의 문장을 사례로 들어보자.
“About one trillion gigabytes of health care data is generated annually in the US health care system.”
“Annually, the US health care system generates around one trillion gigabytes of health care data.”
위 ‘About’으로 시작하는 문장은 2018년 원논문에 있는 것이고, 아래 ‘Annually’로 시작한 문장은 한 장관의 장녀가 쓴 것이다. 양쪽 문장의 차이점은 ▲‘매년(annually)’에 해당하는 영어 단어의 위치가 다르고 ▲근사치를 뜻하는 영어 단어 ‘about’을 동의어 ‘around’로 바꿨고 ▲원논문에서 ‘발생한다. 생성한다’(generate)는 각각 수동태와 능동태로 표기했을 뿐이다.
그러나 두 문장 모두 한국어로 번역하면 “미국 보건의료 시스템은 매년 1조 기가바이트가량의 데이터를 생성한다”라는 뜻이 된다.
한 가지 더 예를 들면, 원논문은 “the output of machine learning is only as good as its input” (머신러닝은 입력이 좋아야 출력도 좋다)이라고 썼는데, 한 장관의 장녀는 이 문장에서 “good” 단어를 “excellent”로 바꿔 이렇게 썼다: “the output of machine learning is only as excellent as its input.”
또 ‘지나친 의존’을 뜻하는 “overdependence”를 “excessive reliance”로 바꿔 사용했다. 단어는 달리해 표현을 바꿔놨지만 내용은 같다. 이렇게 단어와 단어의 위치를 살짝 바꿀 경우 표절 프로그램으로는 적발하기가 쉽지 않다.
‘헬스케어 베끼지 않았다’는 취지의 한 장관 측 해명, 거짓으로 드러나
뉴스타파의 추가 취재 결과, 한 장관 장녀가 IEEE 학술대회에 발표한 논문은 에세이 상거래 사이트 등에 공개된 두 개의 서로 다른 논문을 짜깁기한 ‘표절 논문’으로 확인됐다.
장녀가 IEEE 학술대회에 발표한 논문은 총 5장 분량인데, 1~3 페이지 초반부까지는 2018년 UK에세이에 올라온 에세이를, 그다음 3페이지 내용과 4~5 페이지 결론 부분은 간호학 에세이 거래 사이트에 올라온 에세이를 각각 베꼈다. 결국, 지난 5월 헬스케어 부분은 베끼지 않았다는 한 장관 측의 해명은 거짓으로 드러났다.
뉴스타파는 이번에 새로 찾아낸 취재를 바탕으로 한동훈 장관 측에 다시 질의서를 보냈다. 지난 5월 해명 중에 한 장관의 장녀가 쓴 헬스케어 부분은 베끼지 않았다는 취지로 보내온 답변이 ‘거짓 해명’으로 드러났는데 이에 대한 구체적인 입장을 다시 듣기 위해서였다. 그러나 지금까지(6월 29일 오전) 한동훈 장관 측의 답변은 오지 않았다.