You are here

만약 어느 날 연구 데이터가 전부 날아간다면 어떤 일이 일어날까요?

스네하 쿨카니 | 2014년9월15일 | 조회수 36,510
데이터 손실, 연구데이터, 데이터관리도구

만약 어느 날 연구 데이터가 전부 날아간다면 어떤 일이 일어날까요?

이는 연구자들의 가장 끔찍한 악몽이고, 운 나쁜 연구자라면 실제로 겪을 수도 있는 일이겠지요. 데이터 소실도 충격적이지만, 더 충격적인 건 일부 연구자들이 고백한 데이터 저장 방식입니다.

밴쿠버 브리티시 콜럼비아 대학교에 재직 중인 진화 환경학자 티모시 바인스(Timothy Vines)는 “논문이 발표되고 시간이 흐를수록 연구 데이터의 가용성은 줄어든다” 라는 논문을 통해, 일부 연구자들은 오래된 데이터를 부모님 집의 다락방에 보관하거나 상자에 담아 차고에 넣어버리고, 이제는 작동하지 않는 플로피 디스크에 보관한다는 사실을 털어놓았습니다.

이런 보관 방식은 데이터 소실처럼 심각한 상황을 낳을 수 있겠지요.

효율적인 연구 데이터 관리법은 많은 연구자들을 항상 괴롭히는 고민입니다. <네이처>에 실린 이 논문에서 보고하고 있는 통계를 보면 효율적인 데이터 저장 방식이 얼마나 중요한지 알 수 있을 것입니다.

데이터 생산량은 빠른 속도로 증가하고 있다.

- 세상에 존재하는 모든 데이터의 90%가 지난 2년 내 생산된 것이다.

-과학 데이터의 생산량은 매년 30%의 비율로 증가하고 있다.

투자에도 불구하고 데이터는 효율적으로 관리되고 있지 않다.

- 현재 연구 개발 비용은 전 세계적으로 약 1 5천억달러로 추산되는데, 이 비용이 위험에 처할 수도 있다.

- 생산된 데이터의 상당량이 소실된다. 보존되는 데이터의 비율은 매년17% 하락하고 있다.

- 20년이 지난 데이터의 80%를 찾을수 없다.

http://www.nature.com/news/scientists-losing-data-at-a-rapid-rate-1.14416

이 통계에서 과학이 직면하고 있는 심각한 문제 한 가지가 드러납니다. 예측대로 과학에 있어 데이터 소실의 비용은 어마어마합니다.

타당한 데이터가 없을 시 연구 재현이 거의 불가능할 때도 많습니다. 그런 사례들 중 한 가지를 들자면, 농학자 멜빈 맥카시는 1958년에서 1973년에 이르는 15년간 네브래스카 인근의 식물과 초목의 생장주기를 기록했습니다. 40년 뒤, 기후 온난화가 식물의 생장주기에 미치는 영향을 연구하던 환경학자 리지 울코비치가 자신의 연구와 연관시키기 위해 맥카시의 데이터를 찾기 시작했습니다.

그러나 맥카시는 이미 사망한 뒤였고 원본 데이터를 찾을 수가 없었습니다. 이렇게 소실된 데이터는 복구 불가능하기 때문에, 다시금 처음부터 데이터를 수집해야 한다면 추가적인 비용이 들겠지요.

연구 데이터가 소실되는 주된 이유는 이 데이터를 가진 사람이 연구자 당사자 뿐이기 때문입니다. 이런 이유로, 연구자들은 데이터 관리 도구를 사용해 데이터를 안전하게 보관해야 합니다.

전자 노트북, 구글 드라이브 와 같은 클라우드 스토리지 서비스, GitHub 나 더 최근에 등장한 Projects와 같은 코드 호스팅 사이트 등이 널리 이용되고 있습니다. 디지털 사이언스에서 일하는 네이선 웨스트가스가 포스팅을 통해 지적했듯, 지리적 경계를 넘어선 협력연구가 보다 늘어남에 따라 연구 데이터 관리에도 어려움이 생기고 있습니다.

게다가 협력 연구자들 사이의 기술적 숙련도의 차이점, 다양한 도구에 대한 지식, 연구자들이 타협해야 하는 랩 시스템과 프로세스의 한계 등도 원활한 데이터 관리에 어려움을 더합니다. 결과적으로 많은 연구들이 그 기반이 되는 데이터를 사용할 수 없다는 이유로 기능을 잃게 되고 맙니다.  

연구자들과는 별개로, 저널 역시 데이터 보존에 필수적인 역할을 담당할 수 있습니다. 최근에는 많은 저널에서 원고 제출 시 연구의 기반이 되는 데이터를 함께 제공하는 것을 필수 요건으로 두어 데이터의 접속 가능 여부와 보존 여부를 확인하고 있습니다. 많은 사람들이 데이터를 보존하고 과학적 진보를 도울 수 있는 데이터 쉐어링을 오픈 사이언스로 나아가는 올바른 방향이라고 간주하고 있습니다.

연구 데이터는 값을 매길 수 없으리만치 귀중한 것이므로, 데이터가 과학에서 영원히 사라지지 않을 수 있도록 연구자와 저널이 힘을 합쳐 노력해야겠습니다.

여러분은 데이터 관리 도구를 사용하고 있습니까? 데이터 쉐어링이 데이터 소실을 막을 수 있을까요? 아래의 덧글 란을 통해 여러분의 생각과 의견을 나누어 주세요. 

스크랩하기

해당 기사를 스크랩해보세요!

지식은 모두에게 함께 공유되어야 한다는 것이 에디티지 인사이트의 이념입니다. 해당 사이트에서 제공되는 모든 기사는 Creative Commons license로 재포스팅 및 스크랩이 가능합니다. 아래의 가이드라인만 유념해주신다면 언제든지 무료로 에디티지 학술 전문가의 지식을 가져가실 수 있습니다!


  • 주의 : 에디티지 학술 전문가들은 해당 콘텐츠를 만들기 위해 많은 시간과 노력을 쏟고 있습니다. 기사를 스크랩 및 재포스팅 하실 때는 명확한 출처를 남겨주시기 바랍니다.
  • 이미지 재사용: 이미지를 원본이 아닌 편집 재사용하실 때는 에디티지 인사이트의 허가가 필요합니다.

코드를 복사하셔서 기사 공유를 원하시는 사이트에 적용하시면 에디티지 인사이트 기사를 가장 쉬운 방법으로 공유하실 수 있습니다.
 
위 코드를 복사하시어 원하시는 곳에 다시 포스팅 하실 수 있습니다.

Comments