[IJAsia18] 당신만의 데이터베이스를 구축하세요

2018년 10월 25일 10시 39분

종종 당신이 필요로 하는 데이터베이스는 존재하지 않습니다. 때론 데이터는 존재하지만 데이터에 접근할 수 없습니다. 이럴 때 직접 데이터베이스를 만들어보면 어떨까요?

IJAsia18의 마지막 세션인 “Building your own Database(당신만의 데이터베이스를 만들기)” 세션에서는 미국 일리노이 대학 Brant Houston 교수와 스웨덴 공영방송인 SVT의 Helena Bengtsson 에디터가 데이터베이스를 효율적으로 직접 구축하는 방법들을 공유했습니다.

연사들은 문서를 스프레드시트로 어떻게 바꿀 수 있는지, 데이터를 직접 입력할 때 고려해야할 점, 데이터베이스를 만들 때 설문조사는 어떻게 활용해야 하는지, 비구조화된 자료 속에 묻혀있는 이야기를 발굴하는 법 등의 팁도 전했습니다.

구조를 들여다봐야 이야기 보석을 캔다

두 연사는 공통으로 데이터에서 이야기를 끌어내려면 많은 시간과 노력이 든다고 강조했습니다. Helena 에디터는 일관성이 핵심이라며, 무엇을 찾고 싶은지 구체적으로 생각하고 당신이 가진 시간을 데이터를 관찰하는 데 최대한 사용하라고 조언했습니다. Helena는 파나마 페이퍼 프로젝트 당시 공개된 이메일 문서들을 스프레드시트로 옮기는 데만 몇 주의 시간이 소요됐다고 예시를 들기도 했습니다. 반면 Brant 교수는 “데이터베이스를 만드는데 시간과 인력이 얼마나 필요한지 현실적인 추산이 선행돼야 한다”고 주의를 표했습니다.

Helena는 무료로 공개된 텍스트 데이터에서 이야기를 구하는 건 많은 작업량을 수반하지만 보람을 느낀다고 말했습니다. 그 예로 정치인들의 위키피디아 수정 기록을 수집해 날짜, 작성자, 수정내용 등의 정보를 스프레드시트로 정리한 사례를 소개했습니다. ‘최근 50번 이상 수정된 경우', ‘한 해동안의 모든 수정 기록', ‘개별 작성자들이 수정한 문서의 개수', ‘영국 국회의원 관련 문서' 등 여러 방법으로 데이터를 관찰하던 Helena는 재미있는 사실을 발견했습니다. 유럽 의회 소속의 정치인인 David Coburn이 본인에 대해 기술한 문서를 6일 동안 69번이나 수정하다가 위키피디아로부터 영구 차단당한 겁니다. 사건의 내막은 기사로 더 자세히 확인 가능합니다.

데이터 구조화, 이럴 때 필요해

Helena 에디터는 필요한 데이터를 구하기는 쉽지 않기에 가장 좋은 방법은 데이터셋을 직접 만드는 것이라고 추천했습니다. 정부에서 제공하는 데이터는 모든 기자가 구할 수 있지만, 데이터를 쌓는데 매일 5분씩만 투자하면 본인만의 데이터베이스를 가질 수 있다고 덧붙였습니다.

Brant 교수는 “정보가 전자 형태로 존재하지 않는 경우, 시간이 흘렀을 때 최소 하나의 중요한 맥락 있는 이야기가 가능할 경우, 기자들이 향후에도 보도에 계속 사용할 아카이브일 경우 등에 데이터를 구조화할 필요가 있다"고 설명했습니다.

국내 언론사에서 직접 데이터베이스를 구축해 공개한 예로는 뉴스타파의 고위공직자 재산공개 웹사이트가 있습니다. 관보나 공보를 통해 매년 이미지와 pdf로 공개되는 고위공직자들의 재산 내역을 한데 모아 시민들이 직접 검색해 찾아볼 수 있도록 웹사이트를 제작한 바 있는데요. 산발적으로 공개되고, 사람을 직접 검색할 수 없던 정보를 데이터베이스화하면서 공직자들의 재산형성 과정을 누구나 추적할 수 있게 됐습니다.

DB는 크다고 좋은 게 아니야

데이터베이스를 구축하기로 했다면 다음은 소프트웨어를 결정해야 합니다. 일반적으로 스프레드시트 또는 데이터베이스 관리 프로그램을 사용하게 되는데요. Brant 교수는 입력 오류를 최소로 하기 위해 전문적인 데이터베이스 관리 프로그램을 사용하길 권했습니다.

Brant 교수는 “분석에 얼마나 넓은 범주가 필요한 지 충분히 고려해 열을 나눠야 한다"고 설명했습니다. 단순히 많은 열이 나열된다고 좋은 데이터베이스는 아니라는 말입니다. Helena 에디터 역시 “본인이 데이터를 어떻게 구조화해야 하는지 파악하고 있다면 아무리 많은 조각도 잘 모을 수 있다”며 “너무 많은 건 필요 없고 열을 선택해야 한다"고 덧붙였습니다.

DB를 만드는 다양한 방법

소유한 데이터 또는 공개된 데이터를 잘 정리하는 것 말고도 직접 데이터를 수집해 데이터베이스를 만들 수 있습니다. Helena 에디터는 설문조사를 통해 데이터를 수집하거나 크라우드소싱을 활용해 데이터베이스를 제작한 사례들도 언급했습니다.

SVT 뉴스는 스웨덴 중남부에서 치안이 가장 취약하다고 평가되는 23개 지역을 모두 방문해 소규모 사업자 101명을 인터뷰했습니다. 해당 지역 상인들이 세상을 어떻게 인식하고 있는지 관점을 파악하는 데 중점을 뒀습니다. 이외에도 선거 기간에 후보자 5500명과 지역 대표 2200명에게 설문지를 보낸 뒤 답변을 받아 선거 기사를 작성한 사례, 교육 관련 TV쇼 제작을 위해 교사 패널 900여 명에게 성별, 나이, 고향, 근무지 등의 정보를 얻어 데이터베이스로 만든 사례 등이 소개됐습니다.

정리 : 뉴스타파 연다혜

관련뉴스