스토리텔링에 AI와 위성 이미지를 활용하는 법

2022년 05월 31일 14시 00분

한국탐사저널리즘센터-뉴스타파는 글로벌탐사저널리즘네트워크(GIJN)과 함께 전 세계 저명 저널리스트의 탐사보도 노하우와 취재 팁을 우리 말로 번역해 공개합니다. 비영리 탐사보도 기관인 뉴스타파와 GIJN이 공동 진행하는 이번 프로젝트는 탐사저널리즘의 저변 확대를 위해 기획됐습니다. -- 편집자 주
이 기사는 2021 저널리즘-AI 콜라보 챌린지(Journalism AI Collab Challenges)에서 결성된 기자와 데이터 전문가 협업팀 ‘프롬 어보브 팀’(From Above Team)에 대한 이야기입니다. 
우리는 인공지능(AI)을 활용해 우리가 취재하고자 하는 주제와 관련한 위성사진 속에 시각적 지표를 식별해내는 프로젝트를 진행했습니다. 우리가 개발한 도구를 사용하면 외딴 지역에 건설된 불법 활주로 또는 정글 내 확대 되어가는 벌채, 공공 도로가 실제 건설되고 있는지 여부 등을 식별할 수 있습니다.  
상공에서 포착되는 눈에 띄는 지형 변화 또는 독특한 기반 시설은 탐사보도의 소재가 될 수 있습니다. 이 가이드는 현재 취재 활동을 수행하면서 그 결과물을 확인하는 데 위성 이미지가 얼마나 중요한 역할을 하는지 확인하고 싶은 기자, 또는 새로운 증거를 수집하고 싶은데  어디서부터 시작해야 할지 모르는 기자들을 위해 작성된 글입니다. 
블룸버그뉴스, CLIP, 데이터크리티카, 라나시옹 등 세계 다수 언론매체 기자들로 구성된 우리 팀은 기사 작성에 활용되는 응용 컴퓨터 기법과 위성 이미지에 관심이 많았습니다. 우리는 지구의 현 상태에 관한 설득력 있는 기사 작성 능력을 위성 이미지에 담긴 정보를 통해 한층 강화할 수 있고, 여러 취재 분야에 적용할 수 있을 것으로 판단했습니다. 그러나 이러한 도구는 복잡해서 대부분의 기자들에게는 접근이 쉽지 않습니다. 이러한 상황을 고려해, 우리는 다양한 취재에 바로 복제해 활용할 수 있는 워크플로를 만들기로 했습니다. 
▲위성 이미지 데이터 분석 가이드의 한 페이지 요약. 위 내용의 번역본은 바로 아래에서 확인할 수 있다. (출처: 프롬어보브 팀)

기사의 스토리텔링에 AI 및 위성 이미지 사용하는 법

1. 기사 소재(Story Idea)
위성 이미지를 기사에 활용하는 과정의 출발점은 기사 소재에서 비롯됩니다. 위성 이미지의 시각적 지표들은 추가적인 맥락이나 증거를 제공할 수 있습니다.  
2. 데이터 획득(Data Acquisition)
기사 소재를 뒷받침하고 분석할 위성 이미지(데이터)를 수집합니다. 
3. 기술적 분석(Technical Analysis)
A. 이미지 속 정보를 풀어내기 위한 탐색적 데이터 분석(Exploratory Data Analysis)을 수행합니다. 
B. 데이터의 분리(Segmentation)와 분류(classification) 중 기사 목적에 맞는 작업을 선택해 수행합니다. 
4. 주석 달기 (Annotation)
이후 진행될 머신러닝 또는 AI 알고리즘 작업에 앞서 주석을 달아줍니다. 이를 통해 데이터에 라벨을 붙입니다. 
5. 훈련(Training)
라벨을 붙인 데이터와 이미지에 담긴 정보를 바탕으로 컴퓨터 비전 인식 알고리즘을 훈련시킵니다. 데이터 간 연관성을 학습하는 것이 목적입니다. 
6. 검증(Validation)
학습된 초기 알고리즘을 미세 조정합니다. 혹은 정확도를 높일 수 있는 다른 방법을 사용해 봅니다. (예: 당신의 데이터셋에 랜덤 포레스트(Random Forest)와 그라디언트 부스팅(Gradient Boosting)를 적용시켜보고 어떤 기술이 더 뛰어난 학습을 보이는지 비교해 봅니다.) 
7. 테스트(Testing)
완전히 새로운 이미지에 지금까지 학습을 끝낸 알고리즘을 적용해 봅니다. 성능과 수집된 정보를 관찰합니다. 
8. 기사 작성(Write the Story)
기사 소재를 뒷받침하거나 추가 취재를 위한 새로운 아이디어를 개발하는데 알고리즘 결과를 활용합니다.
자세한 정보는 블로그 참조  
우리의 공통 관심사는 위성 이미지로 기후 위기를 취재하는 것이었습니다. 취재의 시작이자 가장 중요한 단계인 아이디어 구상부터 시작했습니다. 연구 자료를 수집하고 위성 이미지를 활용해 추론할 수 있는 숲, 해안선 등 지리적 요소가 담긴 다양한 주제를 제시했습니다. 이후 범위를 좁혀 보호림 내 불법 목장을 추적하기로 했습니다. 
멕시코: 데이터크리티카는 멕시코 남동부 자연보호 지역 내 소 떼의 존재에 대한 정보를 수집했습니다. 이 지역 중 일부가 멕시코뿐 아니라 중미 지역 최대 열대우림이라는 점에서 매우 좋은 주제입니다. 이 정보는 알고리즘을 훈련하기 위해 양질의 데이터를 가져올 가능성이 높은 이미지를 획득해 학습시킨 다음, 이 알고리즘을 새로운 영역에 적용하여 다른 유사한 영역을 감지시키는 것과 관련이 있습니다.  
콜롬비아: CLIP은 파트너사 ‘360’과 함께 ‘퓰리처위기보도센터’(The Pulitzer Center on Crisis Reporting)의 취재 지원을 받고 소 백신 접종 데이터를 활용해 콜롬비아 국립공원 네 곳의 경계 지역에 고밀도로 분포된 소 떼를 포착해냈습니다. 이 경계 지역은 아마존 정글 보호에 있어서 중요한, 과도기적 생태계로 평가받고 있습니다. 이들 지역의 지리적 형태 자료들의 내용이 서로 일치하지 않았기 때문에 우리는 현지 삼림에 대한 풍부한 현장 지식을 갖춘 ‘보존 및 지속가능발전 재 단’(FCDS)과의 협업을 통해 지도상에 소 떼의 위치를 정확히 특정할 수 있었습니다. 가장 최신 데이터는 2020년 자료입니다. 위성 이미지로 소들을 식별한 덕분에 현재 상황을 평가하고, 소 목축과 그에 따른 삼림 벌채가 지금까지 지속적으로 확대된 점을 확인할 수 있었습니다. 

위성 이미지 확보, 저장 및 처리 

우선, 우리는 아마존 보호림 내 불법 소 목축의 흔적을 추적할 지역을 정했습니다. 다음 단계는 이를 증명해 줄 위성 이미지를 확보하는 것이었습니다. 위성 이미지는 우리가 훈련시키고자 했던  컴퓨터 비전 알고리즘의 주요 요소였습니다. 처음에는 우리 프로젝트 참여 매체가 이미 취재한 바 있는 멕시코, 콜롬비아, 브라질, 아르헨티나 등 남미 4개국 전체를 대상으로 위성 이미지를 수집하기로 했습니다. 그러나 이 이미지 확보 단계는 예상했던 것보다 훨씬 더 복잡했습니다. 따라서 관심 영역을 좁혀야 한다는 것을 깨달았습니다. 
현재, 위성 이미지는 그 어느 때보다 널리 사용되고 있습니다. 그러나 고품질 이미지, 특히 사물 탐지가 가능한 정도의 고해상도 이미지를 확보하는 데는 큰 비용이 듭니다. ‘맥사’, ‘플래닛’, ‘센티넬’, ‘구글 어스’ 등 세계적인 위성 서비스 기업에 연락을 취했지만, 협업이나 소규모 프로젝트 관련 문의에 대한 답변을 얻는 데는 어려움이 있었습니다. 그러나 특정 목표를 추구하고자 하는 단체나 기자들을 대상으로 위성 이미지 자료를 무료로 이용하거나 다운로드하도록 허용하는 프로그램이 많다는 것을 알게 되었고, 이를 데이터 소스로 활용하기로 했습니다. 
우리는 생물 다양성 보전을 목표로 개발된 ‘플래닛’의 NICFI 프로그램을 사용했습니다. 이미지 해상도는 픽셀당 4.7m로 랜드샛(미국의 지구 자원 탐사 위성) 이미지보다는 해상도가 높지만, 연결 대역폭은 낮습니다. 
이 과정에서 유념해야 할 기준
1. 이미지 사용 비용과 가용성: 비용은 이미지 품질에 따라 달라지고, 품질은 기사에 탐지가 필요한 대상의 유형에 따라 달라집니다. 예를 들어, 소 떼 탐지는 넓은 들판에서 농경지의 존재를 탐지하는 것보다 훨씬 더 세분화된 작업(이미지 레이블링)입니다.
2. 이미지 저장 및 처리: 고품질의 위성 이미지는 100 제곱킬로미터 당 약 0.3GB의 용량은 되어야 합니다. 이 정도 고화질이 되려면 텍사스 주 면적의 경우 이미지 용량이 대략 2TB, 브라질 면적의 경우 최대 26TB는 되어야 한다는 뜻입니다. 따라서 지역을 제한하면 현실적인 저장 및 처리 능력을 확보할 수 있습니다. 특정 지역의 1년 전과 현재의 모습을 비교하는 등 변경 탐지 작업을 수행하려면 저장 용량을 두 배로 늘려야 합니다.


현재 사용가능한 AI 기술 이해하기 

우리는 위성 이미지를 통해서 지상의 변화, 현상 또는 동물을 탐지하는 스마트 알고리즘 개발에 힘쓴 사람들을 찾아봤습니다. 그리고 다음과 같은 결론에 도달했습니다. 
– 경험자와 이야기하고 그들의 기술을 기록해야 합니다. 
– 이미지 처리에 적합한 AI/컴퓨터 비전 기법을 찾아야 합니다. 
우리는 머신러닝 기술과 위성 이미지를 접목한 프로젝트를 수행해 본 경험자들과 이야기를 나눠보고 싶었습니다. 

우리 팀이 수행한 인터뷰 및 연구에서 배운 내용 

  • 이미지를 처리하여 이미지에 포함된 정보를 분해하고, 이 정보들로 새로운 연관성을 생성해 추가 정보를 포착하는데 사용할 수 있는 AI 기술은 많이 있습니다.
    예를 들어, 우리는 위성 이미지에서 가축을 탐지하기 위해 사물 식별이 가능한 알고리즘을 훈련시켜야 했습니다. 그리고 삼림 지역 내 변화를 탐지하기 위해서는 여러 개의 위성 이미지에 시계열 분석을 시행해야 했습니다. 그 결과 컴퓨팅에 문제점이 늘어났고 초기 프로토타입 단계에서 기술 파이프라인을 구축하는 데 도움이 됐습니다.
  • 우리는 우크라이나 데이터 언론사인 '텍스티'가 진행했던 <한센병을 앓는 땅>(Leprosy of the Land)이라는 비슷한 프로젝트를 찾아냈습니다. 이 프로젝트는 머신러닝 모델을 적용해 위성 이미지에서 호박 채굴 현장을 찾아내고 달 표면처럼 땅에 뻥 뚫린 자국 같은 패턴이 70,000㎢가 넘는 지역에 형성되어 있음을 발견했습니다. 우리는 텍스티의 아나톨리 본다렌코를 인터뷰했습니다. 
  • <소를 세다>(Counting Cows) 프로젝트를 진행한 알프레도 칼라이치와도 이야기를 나눴습니다. (이 프로젝트 관련 데이터는 GitHub를 참조)
  • 소 떼는 고정된 물체가 아니기 때문에 픽셀당 0.5m 미만 저해상도의 이미지는 천저점(지구 표면의 관측 지점에서 연직선을 아래쪽으로 연장했을 때 천구(天球)와 만나는 점)에서 촬영된 경우에만 사용할 수 있습니다. 이미지가 단 10도라도 벗어난 곳에서 촬영됐다면 해상도에 영향을 줄 수 있습니다.
  •  소 떼는 고정된 물체가 아니기 때문에 픽셀당 0.5m 미만 저해상도의 이미지는 천저점(지구 표면의 관측 지점에서 연직선을 아래쪽으로 연장했을 때 천구(天球)와 만나는 점)에서 촬영된 경우에만 사용할 수 있습니다. 이미지가 단 10도라도 벗어난 곳에서 촬영됐다면 해상도에 영향을 줄 수 있습니다.
  • 그러나 소의 마릿수를 세는 것이 아니라 존재 여부 확인이 목표라면, 울타리, 마구간, 농지, 물웅덩이 같은 주변 환경은 소의 존재를 판단하는 근거가 될 수 있습니다. 이 점이 우리 프로젝트에서 매우 중요한 역할을 했습니다. 다시 말해 소를 세는 대신 그 대용물격 요소들로 눈을 돌리는 계기가 된 겁니다.
  • <소를 세다> 프로젝트는 파트너인 영국 환경단체 ‘글로벌 위트니스’로부터 고해상도 이미지를 확보했습니다. 이 단체는 크라우드 펀딩으로 모은 자금으로 ‘맥사’의 위성 이미지를 구매했습니다. 특정 지역을 촬영해달라고 위성 업체를 섭외해 비용을 직접 지불할 수도 있지만, 위성 이미지를 구입한 제3자로부터 일부 이미지의 사용 라이선스를 구매할 수도 있습니다. 이들은 라이선스를 확보한 덕분에 원본 이미지의 스냅샷을 실은 프로젝트를 공개할 수 있었습니다. 이 사례를 보고 우리는 필요한 이미지를 갖고 있을만 한 파트너를 물색했습니다. 아르헨티나 언론사 '라나시옹'은 픽셀당 0.3m의 고화질 이미지 하나를 확보할만큼의 자금 지원을 받았습니다. 그러나 이미지 하나로는 알고리즘을 실행하기에 충분하지 않다는 이유로 거절당했습니다. 
  • <소를 세다> 프로젝트는 주석 작업을 수행하기 위해 이미지를 가로 100개, 세로 100개의 조각으로 분할했습니다. 그 덕분에 몇 시간 만에 집합 주석을 완료했을 뿐만 아니라 주석의 일관성도 높일 수 있습니다. 이 사례를 따라 주석 작업을 수행한 결과, 이미지 분할이 주석 작업의 속도와 일관성 측면에서 매우 유용하다는 것이 확인됐습니다.
  • 우리 프로젝트 같은 일부 경우에서는 이미지를 저장하는 것이 큰 문제는 아닙니다. 특정 지역을 작은 타일(가로 12km, 세로 12km)로 쪼개고 한 번에 타일 하나씩 알고리즘을 훈련시키고 적용한다면, 램이 16GB 이상과 1TB짜리 표준 하드 디스크를 갖춘 일반 데스크탑으로도 우리가 만든 알고리즘을 실행할 수 있습니다.
    그러나 여러 위성 이미지 타일 또는 한 나라의 영토 전체를 살펴보고자 방대한 규모의 이미지를 저장하고 처리하고 싶다면, 클라우드 서비스를 이용해야 합니다.
이런 응용 프로그램의 주된 제약 요소는 카운팅 (세는) 알고리즘 개발이 아니라 고해상도 이미지를 입수할 수 있느냐다. 또한, 위성 이미지로 특정 개인을 식별할 수 있으려면 현재 상업용 위성으로는 지원되지 않는 수준의 해상도가 필요하다.                                                                                                                                  — 알프레도 칼라이치, <소를 세다> 프로젝트


▲프롬 어보브 팀의 분석 타겟 지역이었던 멕시코 열대우림. (출처: 프롬어보브 팀)

최선의 노력과 활동  

주요 위성 서비스 기업에 연락을 취했지만, 우리 같은 협업 요청이나 소규모 프로젝트 관련 문의에 대한 답변을 얻는 데는 어려움이 있었습니다.

그러나 우리는 특정 목표를 추구하는 단체와 기자들이 위성 이미지 자료를 무료로 이용하거나 다운로드할 수 있는 프로그램이 많다는 것을 알게 되었고 이를 데이터 소스로 활용하기로 했습니다. 픽셀당 최대 0.4m의 고해상도 이미지를 확보하지 못했다면 소들을 탐지하지 못했을 겁니다. 
적어도 한 나라에 대해서는 이미지를 확보하고 전체 알고리즘 처리가 실행되는 것을 볼 수 있기를 바라자. 그것이 불가능하다면, 더 큰 객체를 탐지하는 연구로 선회해서 무료로 사용할 수 있는 이미지를 활용하면 된다.                                                                                                                                                  — 플로르 코엘료, 프롬 어보브 팀

우리에게는 아르헨티나, 멕시코, 콜롬비아 등 3개국에 데이터 소스가 있었습니다. 그리고 기술적 문제, 이미지 비용, 클라우드, 고화질의 과거 위성 이미지 구하기 등 소스에서 발생하는 문제에 대해서 충분히 인지하고 있었습니다. 일단, 소 떼를 각 개체별로 식별하는 작업은 하지 않기로 했습니다. 헛간, 울타리, 도로, 농장 부지 경계, 인공 물웅덩이 등의 요소들을 통해 보호구역 내에 소들이 존재한다는 것을 보여줄 수 있기 때문입니다. 
프로젝트 초기에 논의했던 토지이용 분석 툴은 개발하기로 했습니다. 소 떼를 탐지하는데 필요한 이미지보다 해상도가 낮은 이미지를 활용해도 영농 활동 흔적은 식별할 수 있기 때문입니다. RGB 렌즈와 적외선 렌즈가 물체 탐지 분석에 얼마나 도움이 되는지 살펴보았습니다. 인공위성은 서로 다른 물체를 더 정밀하게 식별하기 위해 RGB 렌즈나 적외선 렌즈를 사용할 수 있습니다. 
이점을 염두에 두고, 우리는 아르헨티나, 브라질, 콜롬비아, 멕시코 등 4개국 보호구역 또는 삼림 지역에 살던 소를 탐지할 툴을 개발하는 데 모든 노력을 집중했습니다. 
고화질 이미지는 ‘플래닛’의 NICFI 프로그램에 공개된 것들로 사용하기로 했습니다. 
플래닛 NICFI 계정이 있다면 플래닛이 제공하는 ‘베이스맵 뷰어’(Basemaps Viewer) 서비스와 ‘익스플로러 온라인’(Explorer Online) 서비스의 차이점을 확인해보자. ‘베이스맵 뷰어’는 과거 이미지 여러 레이어가 포함된 좀 더 분석적인 위성 이미지 다운로드 서비스를 제공한다. ‘베이스맵’ 또는 타사의 위성 이미지 소스를 사용할 때 다운로드 가능한 시각적 합성 요소와 분석적 합성 요소를 명확하게 구분할 수 있어야 한다. ‘익스플로러 온라인’은 앞서 언급한 여러 대역으로 인코딩된다. ‘베이스맵’과 ‘익스플로러’는 거의 비슷해 보이지만, 데이터 처리와 데이터 추출 및 모델링을 위한 이미지는 ‘익스플로러 온라인’에서만 다운로드할 수 있다.

주석의 기준과 지침 

우리는 이미지 분할을 위한 라벨을 붙이기로 결정했습니다. 제한된 데이터와 제한된 시간 간 균형을 유지하는데 도움이 되고 팀원들의 작업 선호도에 맞는 ‘그라운드워크’(GroundWork)를 툴로 사용하기로 선택했습니다. 또한, 팀의 모든 구성원이 이미지를 놓고 주석 작업의 수행 지침을 정하고 합의하는 것도 중요했습니다. 
출처: 프롬어보브 팀
주석 작업에는 시각적 합성(레이어가 적은) 이미지를 사용할 수 있습니다. 주석 작업이 완료되면 당신이 식별하고자 하는 지상의 각 요소는 지상 위 물체와 고도 및 위도 값을 얻을 수 있습니다. 이 요소들을 다각형 또는 점 형태로 표현하면 됩니다. 이후, 이 정보와 위성 이미지에 인코딩된 반사율 정보를 일치시키면 됩니다. 
주석 잡업 툴은 프로젝트 목적에 따라 각 툴의 장단점을 고려해서 선택해야 합니다. 우리가 모든 툴을 꼼꼼하게 테스트해 보지는 못했지만 ‘오픈씨브이’(OpenCV)나 ‘컴퓨터비전어노테이션툴’(CVAT) 같은 좋은 온라인 툴도 있습니다. 
예를 들어, 일부 툴은 원활한 온라인 협업 기능을 제공하기도 합니다. 그러나 이런 기능을 갖춘 일부 툴에서는 ‘플래닛’ 서비스의 최고 이미지 해상도(4.7m/픽셀)보다 더 높은 해상도의 이미지는 업로드할 수 없습니다. 이 경우에는 컴퓨터에서 QGIS나 R 같은 프로그램을 사용해 오프라인으로 처리해야 합니다. 
우리는 일관성과 속도 두 마리 토끼를 모두 잡기 위해 여러 사람이 협업해 어노테이션을 수행하고자 했습니다. 오프라인으로 작업을 하면 협업 특성상 약간의 번거로움이 발생할 수 있기 때문입니다.
이에 따라 우리는 여러 사람이 접속해 쉽게 사용할 수 있는 주석 작업 툴 ‘그라운드워크’를 선택했습니다. 
공공 자료 정보분석 전문 매체인 ‘벨링캣’(Bellingcat)이 우리 협업팀에 합류했습니다. 이들은 우리에게 ‘플래닛’ 툴 관리하는 법을 가르쳐 주고 우리가 소를 발견한 콜롬비아 국립공원 지역의 고해상도 이미지도 일부 제공해 주었습니다. 벨링캣은 플래닛 유료 계정을 보유하고 있어 과거 위성 이미지를 입수한 겁니다. 
▲프롬어보브 팀은 타겟 지역을 7가지 주요 지형지물로 분류하고 라벨을 붙여 식별하기로 결정했다. (출처: 프롬어보브 팀)
우리는 주요 지형지물을 ▲물, ▲숲, ▲농지, ▲물웅덩이가 있는 농지, ▲기반 시설, ▲도로, ▲비식별 물체 등 7가지로 분류하고, 이를 토대로 라벨을 붙이는 어노테이션 작업을 수행하기로 했습니다. 
▲출처: 프롬어보브 팀
우리는 위 이미지를 작은 타일로 나누고 각 타일에 주석 작업을 수행했습니다. 색이 칠해진 타일은 주석 잡업이 끝난 부분이고 검은색 타일은 이 스크린샷이 찍힌 시점까지 주석 작업이 되지 않은 부분입니다. 
우리는 '벨링캣'으로부터 몇 개의 초고해상도 이미지를 제공받았지만 응용프로그램 결함으로 인해 ‘그라운드워크’에 업로드할 수 없었습니다. 결국 ‘구글 어스’ 같은 온라인 고해상 지도를 이용해 우리가 작업한 어노테이션을 검증해야만 했습니다. 
우선 우리는 라벨 종류를 확정하고 이미지 속 숲, 물웅덩이, 농지 등이 무엇인지 합의했습니다. 협업 구성원들이 다같이 접속해 주석 작업을 진행하는데 3시간, 각자 주석 달기 작업을 하는데 15시간이 걸렸습니다. 콜롬비아 국립공원 이미지 2개와 멕시코 보호구역 이미지 2개, 총 4개의 이미지를 작은 타일로 나눠 주석 작업을 수행했습니다. 

단계별 기술 파이프라인 

우리는 다음의 두 가지 데이터를 가지고 작업했습니다. 
  • 위성 이미지 원본: 여러 레이어로 구성된 래스터(raster) 이미지 데이터(TIFF 파일) 
  • 주석 작업한 이미지: 어노테이션 과정에서 라벨링된 데이터(GeoJSON 파일) 
▲하단에 위치한 띠를 보면 분석된 이미지가 5가지 레이어(빨강, 녹색, 파랑, 근적외선, 알파 레이어)로 다운로드 돼 있다. 우리가 사용한 프로그램처럼 일부 프로그램은 서로 다른 색상을 흑백으로 렌더링하기도 한다. (출처: 프롬어보브 팀)
우리는 다음의 절차를 통해 육안으로는 식별되지 않는 정보를 추출하고, 레이어와 라벨 간의 연관성을 학습해 초기 프로토타입을 구축했습니다. 
  1. 위성 이미지의 레이어 간에 담긴 정보를 추출하십시오. 레이어 배열이 다르면 서로 다른 정보가 더 두드러집니다. 왼쪽 이미지에서 ‘실색’(true color) 합성은 육안으로 식별 가능합니. 오른쪽 이미지에서는 빨간색과 근적외선 스펙트럼 대역을 사용한 합성으로 식물을 표시하고 있습니다.
출처: 프롬어보브 팀
2. 라벨링이 완료된 이미지에서 정보를 추출하십시오.
해당 영역에 보이는 시각적 요소들과 맥락상 지식을 바탕으로 데이터셋을 생성합니다. 이런 작업을 이미지 어노테이션이라고 합니다.
3. 어노테이션한 데이터셋과 위성 이미지가 범위, 참조 시스템 투영 및 해상도 면에서 호환되는지 확인하십시오. 우리는 동일한 이미지를 어노테이션하여 호환 가능한 파일을 만들었습니다. 어노테이션 툴은 필수적인 요소를 확보하기 위해서 원본 이미지에 일부 정보를 추가하거나 정보를 제거할 수도 있습니다.
    a. 규모 – 어노테이션 데이터셋과 위성 이미지 두 파일에서 위도와 경도는 형태가 동일해야 합니다.
    b. 시스템 예측 – 좌표 참조 시스템은 동일해야 합니다.
    c. 해상도 – 픽셀당 해상도가 동일해야 합니다.
4. 위성 정보와 어노테이션 정보를 병합하십시오. 이른바 ‘지도 학습’에서는 분류, 즉 라벨 데이터를 주고 학습시킵니다. 반대로 ‘비지도 학습’에서는 당신이 붙인 라벨 데이터 없이 컴퓨터가 자동으로 분류를 나눠 감지합니다. 비지도 방식을 택하면 어노테이션 작업에 드는 시간이 훨씬 줄어들지만, 사람의 육안으로만  확인할 수 있는 중요한 맥락을 놓칠 수 있습니다. 
출처: 프롬어보브 팀
5. 컴퓨터가 모든 정보 레이어 간 고유한 연관성을 학습하도록 알고리즘을 수행하십시오. 연관성 학습에는 여러가지 방법이 있는데, 이 중 한 가지를 선택해 수행하면 됩니다. 우리는 랜덤 포레스트 알고리즘 방식을 선택했지만, 당신은 SVM 알고리즘 등 다른 방식을 선택해도 됩니다. 
  • 분류와 고유 정보 간의 연관성은 위성 이미지의 각 레이어 픽셀에 인코딩되어 있습니다. 예를 들어, 우리가 수행해 놓은 분류 작업과 각 레이어 간 연관성의 강도는 아래에 서로 다른 색깔로 표시되어 있습니다. 연관성 강도가 강한 일부 레이어는 약한 레이어보다 분류 예측에 더 효과적입니다.
▲이미지 분할 알고리즘의 최종 결과물 (출처: 프롬어보브 팀)
6. 처음 사용해 보는 위성 데이터로 알고리즘을 테스트해 보십시오. 이 시점에서는 기사를 뒷받침하거나 심층 보도로 이어갈 수 있을만한 컴퓨터 기법과 이미지에 담긴 흥미로운 시각적 정보를 발견했을 겁니다. 
우리 팀이 개설한 ‘프롬어보브 저장소’에는 우리가 진행했던 프로세스를 완벽하게 재현할 수 있도록 단계별 가이드라인의 세부 버전이 준비돼 있습니다. (GitHub 사이트 여기와 여기를 참조)

참고할 만한 자료

우리 프로젝트 수행에 도움이 된 자료 중에서 일부를 선정하여 다음과 같이 추천 자료 목록을 만들었습니다.
1. 데이터 소스:
   i. 플래닛 API
   ii. 플래닛 NICFI
   iii. 온라인 정보는 맥사 보도국, 플래닛 뉴스 섹션, 스카이트루스 연도별 프로젝트 기록, 데카르트 랩에서 확인할 수 있습니다. 우리는 노르웨이 정부에서 자금지원을 받는 센티넬이 보유한 위성 이미지 중 아마존 열대우림 이미지를 확보하기 위해 맵프로젝트에 접촉하기도 했습니다.

2. 기사 및 연구자료 
   i. 맥사 ‘월드뷰3’을 활용해 코끼리 탐지하기 (옥스퍼드대학교). 시너지를 내기 위해해당 팀의 코끼리 탐지 연구 논문을 살펴봤습니다. 
   iv. 링크: 소의 수를 세기 위한 위성 이미지 품질에 관한 학술 논문  

이외 추가 자료 

 *노션(Notion)에 게재된 기사를 저자의 허락 하에 글로벌탐사보도네트워크(GIJN)가 인공지능 및 탐사저널리즘을 주제로 진행 중인 교차 포스트 시리즈의 일환으로 재게시함.  
제작진
프롬어보브 팀
디자인이도현
웹출판허현재
번역, 감수최시내, 김지윤