지금은 사라진 웹 기록 찾아주는 ‘웨이백 머신’ 활용 팁

2022년 06월 24일 14시 12분

‘인터넷아카이브’(Internet Archive)는 모든 지식에 대한 보편적인 접근을 목표로 지난 25년 동안 디지털 도서관을 운영해온 비영리 단체입니다. 대표적인 서비스인 ‘웨이백 머신’(Wayback Machine)으로 잘 알려져 있습니다. 현재 필자가 관리책임을 맡고 있는 웨이백머신은 공개 웹페이지를 저장 및 영구 보존하고 이를 공개하는 서비스로 매일 10억 개 이상의 영구 저장된 URL을 저장해 공개하고 있습니다.
언론인, 연구자, 팩트체크 전문가, 활동가뿐만 아니라 일반 대중이 무료로 웨이백머신을 다양한 방법으로 이용하고 있습니다. 지금까지 이 서비스 또는 이 서비스 결과물을 출처로 작성된 기사는 수천 건에 달합니다. 웨이백 머신은 글로벌 탐사저널리즘네트워크(GIJN)의 2020년 내가 좋아하는 취재도구 기사에서 유명 탐사기자들이 한 해동안 취재에 사용한 핵심 도구 중 하나로 선정된 바 있습니다.
향후 취재 활동에 웨이백머신을 활용하고자 하는 기자들을 위해 활용 방법을 다음과 같이 소개하겠습니다.

URL 영구 저장

여러분이 어떤 웹사이트 내용을 참고해 기사를 냈는데 이후 해당 사이트 소유자가 주요 페이지나 웹사이트 자체를 삭제했다고 가정해봅시다. 미리 저장·보존하지 않은 페이지는 영원히 사라지게 됩니다. 이런 상황이 벌어지지 않도록 주의해야 합니다. 
이용자들이 웨이백머신의 ‘페이지 저장(Save Page Now)’ 서비스를 통해 영구 저장하는 URL은 하루에도 수천만 개에 달합니다. 누구나 URL을 제출할 수 있고, 무료 아카이브 계정으로 로그인한 경우에는 아웃링크(캡처하려는 원본 페이지 내·외부 링크)까지 영구 저장하고, 아카이빙 과정을 담은 보고서를 개인 이메일로 받아볼 수 있습니다.
좀 더 기술을 사용해 페이지를 저장하는 방법을 살펴보겠습니다. 먼저, 보관하려는 URL 목록을 구글 스프레드시트의 A열에 추가하고 ’페이지 저장(Save Page Now)’ 구글 스프레드시트 서비스를 통해 이 목록을 제출하면 됩니다(자세한 내용은 여기를 참조). B열, C열 및 D열에는 상태 코드, 영구 저장된 URL 그리고 플래그(만약 과거 이미 해당 URL이 웨이백머신에 아카이브된 적이 있는 경우)가 자동으로 입력됩니다. 
spn@archive.org로 이메일을 보내 개별 URL을 제출하는 방법도 있습니다. 이메일 제목란에 ‘capture outlinks’라고 기재하면 URL이 영구 저장됩니다. 모든 과정이 완료되면 이메일로  결과 보고서를 받아볼 수 있습니다. 
기술적으로 능숙한 사용자를 위해 웨이백머신은 애플리케이션 프로그래밍 인터페이스(API)를 제공하고 있습니다. API가 있으면 정보를 기존 소프트웨어 워크플로에 통합하고 새 애플리케이션을 만들 때 작업을 자동화시키는 데 도움이 됩니다. 
글로벌 저널리즘 강화 소프트웨어를 개발하는 샌프란시스코 소재 비영리 기술기업  ‘미단’(Meedan)은 웨이백머신 API를 잘 활용한 사례입니다. 미단의 ‘체크’(Check) 서비스와 웨이백머신을 통합시킨 겁니다.  

아카이브된 페이지의 버전 간 변경 사항 비교 

동일한 웹페이지의 두 버전 간의 다른 점을 확인하고 표시해보고 싶었던 적이 있으신가요? 기업 또는 개인이 어떻게 사이트를 변경하고, 페이지 내 문구를 수정했는지 파악할 목적일 겁니다. 이 경우, ‘변경사항’(Changes)’ 기능을 사용하면 됩니다. 
먼저, 영구 저장된 URL을 웨이백머신 검색창에 입력한 다음 ‘변경’(Change) 옵션을 선택합니다. 
날짜와 시간별로 해당 페이지의 모든 영구 저장된 버전이 표시됩니다. 변경된 내용은 영구 저장된 두 버전 간의 변경 정도를 보여주기 위해 서로 다른 색깔로 표시됩니다.  
서로 다른 시간대의 버전 두 개를 선택하면 두 버전이 나란히 나오며, 텍스트의 변경 사항이 각각 파란색과 노란색으로 표시됩니다. 한 매체는 이 기능을 활용해 영국의 한 블로거 겸 정치 자문은 자신이 과거에 쓴 게시물 내용을 변경했는지 보도한 바 있습니다. 관련 내용은 아래 스크린샷에 설명되어 있습니다.
▲웨이백머신의 ‘변경사항’(Changes) 기능은 페이지의 원 버전과 변경 후 버전을 나란히 보여줌으로서 도미니크 커밍스 전 영국 총리 수석자문이 자신의 블로그 게시물에 어떻게 몰래 내용을 추가했는지 증명해냈다. (출처: 스크린샷)

심층 아카이브 검색 

웨이백머신은 영구 저장된 URL 관련 텍스트를 인덱싱하는 서비스를 아직 제공하지 않고 있습니다. 그래서 전체 텍스트 검색 인터페이스는 제공되지 않고 있습니다. 따라서 찾고자 하는 아카이브된 특정 페이지가 있는 사용자는 해당 페이지의 URL을 알고 있어야 합니다. 현재 웨이백머신 엔지니어들은 특정 아카이브들의 웹페이지와 관련이 있는 다양한 메타데이터를 인덱싱하는 작업을 진행하고 있습니다. (아카이브 관련 현재 이용 가능한 서비스에 대한 내용은 인터넷아카이브 홈페이지를 참조하시기 바랍니다.)

웨이백머신에서 API 활용하기 

’페이지 저장’ 서비스를 통해 영구 저장을 지원하는 API 외에도 웨이백머신을 특정 URL의 영구 저장 여부를 확인하는 데 사용할 수 있는 API도 있습니다. 자세한 내용은 여기를 참조하시기 바랍니다.
인터넷아카이브는 자사가 웨이백머신에서 제공하는 다른 서비스와 마찬가지로 API 사용 빈도에 제한을 두지 않습니다. 하지만 API 사용을 조절하는 조치가 취해지기도 합니다. 웨이백머신 이용과 관련하여 문제가 발생하는 경우, 이메일이나 트위터 쪽지(DM)를 사용하여 문의하시기 바랍니다. 인터넷 아카이브는 언론인 지원을 최우선시하고 있습니다. 

영구 저장한 페이지에 맥락 추가하기

인터넷아카이브는 모든 아카이브를 보다 완벽하게 이해하는 데 있어서 맥락과 출처의 중요성을 인지하고 있습니다. 이점을 고려해 영구 저장된 리소스에 대한 이해를 높이기 위해 각 사안의 앞뒤 맥락을 제공하는 ‘컨텍스트 배너’(Context banner)를 추가하기 시작했습니다. 이 배너는 영구 저장됐던 페이지가 삭제되거나 잘 알려진 연구기관이 해당 페이지를 작성한 경우에 사용할 수 있습니다.
▲웨이백머신은 아카이브된 페이지에 해당 페이지가 지금까지 어디에 활용됐는지에 대한 내용이 담긴 노란색 ‘맥락 배너’를 달았습니다. 그 위에 있는 회색 ‘캡처 정보’(About this capture) 탭을 통해 이 페이지에 대한 과거 맥락을 볼 수 있습니다. (출처: 스크린샷)
웹페이지를 구성하는 영구 저장된 각 URL의 출처는 해당 페이지를 이해하는 데 중요할 수 있습니다. 가령, 영구 저장된 웹페이지의 특정 이미지가 그 페이지의 다른 요소와 같은 시간, 같은 날짜에 캡처됐는지 궁금한가요? 이 질문의 답은 영구 저장된 URL 페이지의 우측 상단에 있는 ‘캡처 정보(About this capture)’를 클릭하면 확인할 수 있습니다. 
그동안 아카이브의 무결성을 위해 인터넷아카이브가 쏟아온 정성과 관심, 아카이브 출처에 대한 투명성 확보 노력은 웨이백머신에 대한 많은 사람의 전반적인 신뢰 형성에 기여했습니다. 이는 웨이백머신에 저장된 자료가 전 세계 여러 법원에서 증거로 인정되는 이유이기도 합니다. 
’페이지 저장’ 기능을 사용해서 본인이 직접 만든 아카이브에 맥락 내용이 추가되어야 한다고 판단하면, 이메일로 요청하십시오. 

브라우저 확장프로그램 

모두 예상하셨겠지만 인터넷아카이브는 사파리파이어폭스, 크롬용 브라우저 확장프로그램은 물론, iOS와 안드로이드용 기본 모바일 앱을 보유하고 있습니다. 
특히, 검색 엔진 브레이브(Brave)와 협력해 웨이백머신 서비스 이용 시 초간편 웹 탐색 경험을 제공하기 위해 브레이브 브라우저에 기본 404 오류 및 기타 오류 감지 기능을 구축했습니다. 
무엇보다 인터넷아카이브와 웨이백머신은 서비스 지원 문의를 쉽게 이메일이나 트위터 쪽지(DM)로 받고 있다는 점을 강조하고 싶습니다. 궁금증, 요청사항, 버그 신고와 성공담을 저희 팀과 공유해 주시기 바랍니다. 
특히 인터넷아카이브 서비스와 관련한 불만사항, 개선이나 추가가 필요한 기능 등에 대한 의견은 언제든 환영합니다. 이를 통해 우리는 언론인의 필요사항과 요구를 지원하는 활동을 더욱 효과적으로 수행할 수 있습니다. 

여기서 잠깐! 유용한 추가 정보 

공개된 웹페이지의 영구 저장 외에도 인터넷아카이브는 ’인터넷아카이브 스칼라’(Internet Archive Scholar) 서비스를 통해 2,500만 건 이상의 학술 자료 등을 보전 및 공개하고 있습니다. 
미리보기와 대여, 다운로드가 가능한 3,000만 권의 전자책과 텍스트, 폐쇄형 자막 전체가 텍스트 인덱싱돼 있어 단어 하나로도 검색이 가능한 수 백만 시간 분량의 영구 저장된 TV 뉴스(수십 개 방송국의 10년치 자료)도 보관하고 있습니다. 
인터넷아카이브와 웨이백머신의 프로젝트와 서비스에 대한 최신 정보를 보시려면 트위터 계정(@internetarchive & @waybackmachine)을 팔로우하고 공식 블로그 게시물을 구독하시기 바랍니다.

추가 자료

제작진
마크 그레이엄
디자인이도현
웹출판허현재
번역, 감수최시내, 김지윤