글로벌 네비게이션 검색 본문 바로가기

사라져가는 디지털 속의 인류 역사, 인터넷 아카이브가 구할 수 있을까?

2024.09.22

연구에 따르면, 2013년부터 2023년 사이에 만들어졌던 웹 페이지 중 25%가 사라졌다. 일부 단체들이 사라져가는 디지털 자료를 보존하려 하고 있지만, 이들의 활동 자체를 위협하는 새로운 위험 요소들도 생겨났다.

파피루스와 모자이크, 밀랍판 조각이 남아 있는 덕에 우리는 2000년 전 폼페이 사람들이 아침 식사로 무엇을 먹었는지 알 수 있다. 중세 라틴어를 충분히 이해할 수만 있다면 영국 국립문서보관소 소장 고문서 ‘둠스데이북’을 통해 11세기 영국 노섬벌랜드 농장에 가축이 몇 마리나 있었는지 알 수 있다. 또한 편지와 소설을 통해서는 빅토리아 시대의 사회상과 그들이 사랑하고 미워했던 사람들도 알 수 있다.

하지만 미래의 역사가들은 21세기 초 우리의 생활이 어떠했는지 완전히 이해하기 어려울 수도 있다. 우리 생활상에 대한 디지털 기록이 쉽게 사라지고 있는 반면, 전 세계에서 만들어지고 있는 정보에 대한 공식적인 보존 노력은 부족하기 때문이다.

다만 정부 영역 바깥에서 많은 단체들이 디지털 자료가 사라지는 것을 막고 있다. 제도적 지원이 거의 없는 터라, 이들 대부분은 자원봉사자들로 운영된다. 이 투쟁의 대명사가 ‘인터넷 아카이브’다. 샌프란시스코에 있는 이 비영리단체는 인터넷의 선구자 브루스터 칼이 1996년 열정을 받쳐 시작한 프로젝트다. 이들의 야심찬 디지털 아카이빙 프로젝트는 지금까지 약 866억 개의 웹 페이지와 4400만 권의 책, 1060만 개의 영화 및 텔레비전 프로그램 영상 등을 모았다. 그리고 많지는 않지만, 이들처럼 전 세계에 흩어져서 디지털 자료의 소멸을 막기 위해 노력하는 다른 단체들도 있다.

“(디지털 자료가 사라질 수 있는) 위험 요소는 다양합니다. 기술적으로 문제가 생겨서 사라질 수도 있습니다. 더 중요한 것은 어떤 조직이 망하거나 기업이 폐업하는 것이죠. 뉴스를 생산하는 조직이 다른 뉴스 기관에 인수되거나 폐쇄되는 경우도 점점 더 늘고 있습니다.” 인터넷 아카이브의 ‘웨이백 머신’ 디렉터인 마크 그레이엄의 말이다. 웨이백 머신은 미래 세대를 위해 웹사이트 스냅샷을 수집하고 저장하는 도구다. 그는 우리 사회에 콘텐츠를 온라인에 올리게 만드는 인센티브는 굉장히 다양하지만, 이러한 콘텐츠를 기업들이 장기적으로 유지하게 만드는 동기는 거의 없다고 말했다.

하지만 그간의 성과에도 불구하고, 인터넷 아카이브 및 유사 단체들은 재정 위기와 기술적 문제, 사이버 공격, 지적 재산의 사본을 무료로 제공하는 것에 반발하는 기업들의 소송에 시달리곤 한다. 그리고 최근의 법정 패소 사례에서 알 수 있듯, 디지털 콘텐츠를 보존하려는 프로젝트 자체가 그들이 보호하려 했던 콘텐츠처럼 한 순간에 사라질 수 있다.

그레이엄은 “인류의 지식 활동과 엔터테인먼트, 뉴스, 대화 중 디지털 환경에서만 이루어지는 것들이 점점 더 늘어나고 있다”고 말했다. “그런데 디지털 환경은 본질적으로 취약합니다.”

인류사 구하기

미국 싱크탱크 ‘퓨 리서치 센터’의 최근 연구에 따르면, 2013년부터 2023년 사이에 존재했던 웹 페이지 중 4분의 1이 지금은 없어졌다. 이 연구는 디지털로 만들어졌다가 사라져가는 인류의 역사에 대한 경각심을 불러일으켰다. 연구원들은 오래된 웹 페이지일 수록, 이 문제가 더 심각하다는 사실을 발견했다. 2013년에 존재했던 웹 페이지 중 38%가 더 이상 작동하지 않는 것으로 확인됐다. 물론 비교적 최근에 개설된 웹 페이지도 사라지고 있다. 2023년에 만들어진 웹 페이지 중 그해 10월 기준으로 약 8%가 사라졌다고 한다.

이 문제는 역사 애호가나 인터넷 강박증 환자들만의 문제가 아니다. 이 연구에 따르면, 정부 웹사이트 5곳 중 1곳에는 하나 이상의 깨진 링크가 있다. 또한 절반 이상의 위키피디아 콘텐츠가 참고 문헌에 깨진 링크를 갖고 있다. 즉 온라인 백과사전의 정보를 뒷받침하는 증거가 서서히 붕괴되어 가고 있다는 뜻이다.

다행히 인터넷 아카이브 덕에 깨진 링크 중 일부는 그 내용을 확인할 수 있다. 인터넷 아카이브의 웨이백 머신 프로젝트는 수십 년 동안 인터넷에서 자료를 긁어 모았다. 이 시스템은 시간이 흐르며 달라지는 웹사이트의 사본(종종 하루에 같은 페이지를 여러 번 캡처하기도 했다)을 만들어, 일반인에게 무료로 제공한다.

그레이엄은 “웨이백 머신에 남은 자료를 통해 ‘깨진 링크’ 중 얼마나 많은 URL을 사용할 수 있는지 살펴봤다”며 “3분의 2가 어떤 식으로든 사용 가능한 것으로 확인됐다”고 말했다. 후대을 위해 디지털 기록을 보존한다는 설립 취지에 부합하는 일을 인터넷 아카이브가 하고 있다는 뜻이다.

다른 조직에서도 비슷한 프로젝트가 진행중이다. 예를 들어 미국 의회도서관은 정부 웹사이트와 국회의원 사이트, 미국 뉴스 사이트들을 보존하려 한다. 의회도서관은 2017년 프로젝트가 종료될 때까지 트위터(현재는 X) 설립 이후 전송된 모든 트윗 사본을 보존하기도 했다. 영국의 ‘UK 웹 아카이브’는 매년 1차례 이상 “.UK”라는 도메인을 가진 모든 웹사이트에서 자료를 긁어 모은다. 2022년에는 러시아의 사이버 공격으로 피해를 입은 우크라이나 인터넷을 구하기 위한 자원 봉사자들이 힘을 모은 사례도 있었다.

그러나 이러한 프로젝트들은 일부 사이트에만 국한되어 있다. 반면 인터넷 아카이브는 훨씬 포괄적인 보존 노력을 지향한다. 사용할 수 있는 자원을 고려할 때, 거의 모든 인터넷 자료를 수집하는 것은 불가능한 일이다. 하지만 인터넷 아카이브의 시스템은 광범위한 인터넷망에 도달하려 노력하고 있다. 주제에 따라서는 인터넷 아카이브가 철저하게 자료를 보존해 놓아서, 웹 사이트를 완전히 옮겨놓은 것처럼 느껴지기도 한다.

성공은 안주를 낳는다

인터넷 아카이브의 노력은 현 시대 우리 삶의 기록을 보존하는 데 많은 도움을 주고 있다. 그러다보니 위키피디아에서는 원본 웹사이트 대신 인터넷 아카이브 웨이백 머신이 저장한 해당 사이트 사본을 인용하는 것이 표준적인 관행이 되었다. 인터넷 아카이브는 디지털 시대 이전의 방대한 미디어 컬렉션도 보존하고 있다. 지금은 그 어떤 스트리밍 서비스에서도 볼 수 없는 1977년 인기 코미디 시리즈인 ‘펀우드 2 나이트’를 이곳에서는 무료로 시청할 수 있다. 책과 잡지, 웹사이트 등은 실제 도서관에서는 구할 수 없는 자료 대신 인터넷 아카이브가 스캔해 놓은 디지털 사본을 인용하기도 한다. 또한 누구나 동영상과 웹사이트 등 거의 모든 자료를 업로드할 수 있는 인터넷 아카이브의 서버는 일반 대중의 자료 보관소 역할도 하고 있다.

디지털 폐기장에서 웨이백 머신이 찾아낸 주요 수집품으로는 지금은 사라진 개인 웹 호스팅 서비스, ’지오시티’에 구축된 웹사이트들이 있다. 소셜 미디어가 등장하기 훨씬 전, 지오시티는 누구나 쉽게 자신만의 웹사이트를 만들 수 있는 플랫폼들 중 하나였다. 역사학자들은 지오시티를 월드 와이드 웹 초창기에 존재했던 가치있는 자료로 보는데, 인터넷 아카이브의 노력이 없었다면 이곳에 만들어졌던 대부분의 웹사이트는 사라졌을 것이다. 또한 최근에는 미국 의회 위원회가 2021년 1월 6일 의사당 습격과 관련된 기사와 문서를 보존하기 위해 인터넷 아카이브를 이용했다.

‘디지털 보존 연합’의 보존 레지스트리 기술 설계자인 앤드류 잭슨은 “몇 년에 한 번씩 새로운 플랫폼이 등장하는데, 그 플랫폼의 경제력이 갑자기 붕괴되는 경우가 있다”고 말했다. 디지털 보존연합은 디지털 자료를 보존하는 방법에 대해 자문을 제공하는 자선 애드보커시다. “디지털 역사에서 격동이 일어나는 주요 원인 중 하나가 바로 이것입니다.”

테크 뉴스 웹사이트 ‘CNET’은 2023년 수만 개의 기사를 삭제한 것이 알려져, 대중으로부터 엄청난 비난을 받았다. 대중은 수십 년의 역사를 잃어버린 것과 같다고 지적했다. 그런데 CNET의 답변 중에는 삭제된 모든 기사가 웨이백 머신에 보존되어 있다는 말도 있었다. 이에 많은 논평가들은 이 회사가 인터넷 아카이브의 노력을 당연하게 생각하면서, 자사의 자료 보존 책임은 회피하고 있다고 꼬집었다.

잭슨은 “구글을 비롯한 검색 엔진들이 URL을 안정적으로 보존하도록 적극 장려하고 있지만, 기술적으로 그렇게 하는 것은 매우 어려운 일”이라고 말했다. “신생 기업들이 웹사이트를 만들 때마다, 새 URL을 얼마나 오랫동안 유지할 수 있을지를 고민해야 합니다.”

하지만 인터넷 아카이브는 자선 재단의 기부금으로 운영되는 비영리 단체다. 이 끝을 알 수 없는 프로젝트를 지속하려면 기하급수적으로 커지는 비용을 감당해야 하는데, 비영리 단체로서는 쉽지 않은 일이다. 그럼에도 인터넷 아카이브는 우리가 디지털에서 영위하는 삶을 보존하는 세계 최고의 도서관 역할을 자처하고 있다. 웹 탄생 40년을 맞이하는 이 시점에서, 이 비공식 프로젝트는 인터넷을 떠받치는 기틀이다.

그런데 인터넷 아카이브에 대한 우리 사회의 의존이 커지는 것과 함께, 이들의 노력을 무산시킬 수 있는 위험 요인도 늘어나고 있다.

단일 장애 지점

인터넷 아카이브는 지난주 구글과 파트너십을 체결했다. 구글은 검색 결과에 웨이백 머신 링크를 포함할 것이라고 발표했지만, 이 거래와 관련된 재정적 세부 사항은 공개하지 않았다.

그러나 최근에 나온 다른 뉴스들을 보면 인터넷 아카이브가 여전히 취약하다는 것을 알 수 있다. 특히 대형 출판사 4곳이 인터넷 아카이브의 실물 도서 스캔 및 디지털 사본 대여 관행이 미국 저작권법을 위반한다고 주장하며 제기한 소송에서 그 취약점이 여실히 드러났다. 인터넷 아카이브는 팬데믹 이전에는 소장하고 있는 도서의 디지털 자료를 한 번에 한 권씩만 볼 수 있게 제한했었다. 하지만 코로나로 인해 도서관이 폐쇄되자, 디지털 아카이브는 이 상황을 보완하기 위해 사용자들이 책의 디지털 사본을 무제한으로 빌려볼 수 있게 정책을 바꿨다.

이 조치에 대해 2023년 미국 법원은 불법이라고 판결했고, 인터넷 아카이브의 항소는 지난 9월 초에 기각되었다. 인터넷 아카이브는 과거 이 사안과 관련하여 구체적인 금액은 공개할 수 없지만 일정 금액을 출판 업계들이 모인 이익 단체에 지불하기로 합의했다고 밝힌 바 있다.

이 뿐만이 아니다. 현재 인터넷 아카이브는 음반 디지털화와 관련해 음반사들이 제기한 소송에 대응하고 있다. 여기에서 패소할 경우, 4억 달러에 달하는 보상을 지불해야 할 수도 있다. 비영리 단체의 생존 자체를 위태롭게 만들 수 있는 금액이다.

인터넷 아카이브의 도서관 서비스 책임자인 크리스 프리랜드는 내부적으로 이번 판결에 대한 법원의 의견을 검토하고 있다고 말했다.

디지털 자료 보존을 위협하는 요인은 법적 분쟁만이 아니다. 영국 대영도서관의 영국 웹 아카이브는 2023년 10월 악의적인 사이버 공격으로 시스템이 멈춰버렸다. 거의 1년이 지난 지금도 영국 웹 아카이브는 아직도 그 여파에서 완전히 벗어나지 못해, 상당수가 자료가 여전히 온라인 확인 불가 상태다.

인터넷 아카이브도 2024년 5월 대규모 분산 서비스 거부(DDoS, 디도스) 공격을 받고 있다고 밝혔다. 디도스 공격은 공공 자료를 파괴하려는 사람이나 악의적인 공격자가 자동 시스템을 구축하여 웹사이트 방문을 폭증시키고 이를 서버가 감당하지 못해 오프라인 상태가 되는 공격이다. 인터넷 아카이브의 경우 공격이 절정에 달했을 때는 매초 수만 건의 동시 접속이 발생해, 웨이백 머신을 비롯한 서비스들이 먹통이 됐다. 기록 보관을 위한 정기적인 업무가 한동안 중단된 터라, 역사 보존에 영구적인 공백이 생겼을 수도 있다.

잭슨은 인터넷 아카이브를 두고 “한 개인이 시작했지만, 어떻게 보면 디지털 기록 보존의 핵심이 되었다”고 말했다. “그런데 잠재적인 단일 장애 지점(시스템의 한 부분이지만 이곳이 작동하지 않으면 전체 시스템이 마비되는 지점)처럼 느껴지기도 합니다. 게다가 우리는 자원봉사 조직 보다는 더 정교한 조직이지만, 그래도 한 지역에 주소지를 두고 해당 지역의 법적 규제를 받는 기관입니다.”

인터넷 아카이브는 이러한 우려를 외부에도 알리고 있다. 그레이엄은 인터넷 아카이브의 업무가 중단되고 “그 공백이 즉시 메워지지 않는다면, 현재 공개 웹에서 제공되는 많은 콘텐츠가 위험에 처하게 될 것”이라고 말했다.

그는 인터넷 아카이브가 당분간은 이 사명을 이어갈 것이지만, 외부의 도움이 필요하다고 말했다. “많은 사람들이 다양한 방식으로 기여할 수 있는 기회가 있습니다.”

책임 분담과 우선순위 정하기

인터넷의 자료를 보존하려는 노력들을 체계적으로 관리하려는 공식적인 시도는 없다. 그러다 보니 취미 활동가와 자원봉사자, 그리고 독립적으로 운영되는 몇몇 비공식 단체들이 이 일을 맡고 있다.

버지니아 대학의 기술 역사학자인 마 힉스는 “자료 보존 노력이 다양하게 분산되는 것은 당연해 보인다”고 말했다. “하지만 여러 문제들 중 하나는 우선순위가 다양하다는 점입니다.”

힉스는 아카이브를 구축할 때 전문가들이 가장 먼저 고려하는 것 중 하나가 우선순위를 정하는 것이라고 했다. “이렇게 분산되어 있을 때는 우선순위가 매우 다를 것입니다. 가능한 한 모든 것을 수집하는 데 우선순위를 두는 집단이 있겠죠. 이들은 매우 완벽주의적인 사람들일 수도 있을 겁니다.” 그런가 하면, 영국의 사례처럼 특정 영역에만 집중하는 이들도 있을 것이다.

이처럼 자연발생적이고 분산된 보존 노력에 대한 우려도 있다. 우선 가장 인기 있는 웹사이트의 사본이 이중 삼중으로 만들어져 귀중한 아카이빙 자원이 낭비될 수 있다. 반면 역사적으로 중요한 의미를 가진 특정 영역이 여러 단체의 관할에 속했지만, 서로 중복을 피하려다가 아예 보존되지 못할 수도 있다.

힉스는 “자료 보존 전문가들은 이 것이 아주 오래전부터 존재해왔던 문제라고 말한다”고 했다. 하지만 디지털에서 생산되는 자료의 양이 많아지면서, 그 문제는 더욱 악화되고 있다. 예컨대 매일 약 10억 개의 이메일이 전송된다. 유튜브에는 매분마다 500시간 분량의 동영상 콘텐츠가 플랫폼에 올라온다고 한다.

힉스는 인터넷은 “본질적으로 정보와 자료의 소방호스”라고 말했다. “소방호스에서 나오는 모든 것을 잡아두는 것은 거의 불가능합니다. 리소스 관점에서 보면 말이 안 되죠.”

힉스는 “역사가인 우리도 비슷한 문제와 씨름한다”고 말했다. “우리는 과거에 수많은 문서를 만들었습니다. 하지만 지금 우리에게 특정 문서와 특정 사람들의 목소리만 남아 있습니다. 누락된 목소리 중 상당수는 매우 중요한 의미를 가졌을 테지만, 지금은 사라졌습니다.”

힉스는 우리 세대의 디지털 발자국에서 무엇을 보존할 것인지에 대한 우선순위를 정해야 한다고 말했다. 그렇지 않으면 오프라인에 존재하는 수많은 디지털 파일은 말할 것도 없고 웹의 역사를 보존하려는 노력이 급격히 늘어나는 비용에 압도당하고 말 것이다.

디지털 보존 연합의 잭슨도 “모든 것을 보존해야 한다면 비용이 매우 많이 들게 된다”고 말했다. “너무 오래된 콘텐츠나 덜 매력적인 콘텐츠는 보존 가치가 크지 않습니다.”

잭슨은 “우리들이 서구 이외의 세계에 대해서는 제대로 된 보존 활동을 못하고 있다”고 했다. “문화들만다 보존의 격차가 있습니다.”

많은 단체들이 이러한 편견을 극복하려 하지만, 정부와 플랫폼 혹은 웹사이트를 운영하는 기업들이 방관하는 바람에 그 무게를 고스란히 떠안게 되기도 한다. 잭슨은 “이 문제에 관심을 갖고 자신의 시간을 기꺼이 할애하는 독립적인 집단들은 공식적인 책임을 맡고 있는 기관들보다 더 많은 자원과 고도의 숙련된 기술을 갖추고 있다”고 말했다.

힉스는 소수의 아카이브 전문가를 제외하고는 자료 보존의 공백을 메우려는 사람이 거의 없다고 말했다. “(디지털) 자료 보존이 누구의 책임인지, 누구의 이익을 위한 것인지 명확하지 않습니다.”

힉스는 하지만 보존을 위한 싸움을 지원하기 위해 우리 모두가 비용을 지불해야 한다는 점은 분명하다고 했다. “매우 실용적인 관점에서 볼 때, 이 사람들과 자료 보존 노력에 자금을 지원하지 않으면 아카이빙 자료는 결국 사라지게 될 것입니다. 어떤 자료들은 제대로 작동하지 않을 것이고, 그렇게 되면 자료 보존의 의미가 없어질 겁니다.” 힉스의 말이다. “자료 보존, 즉 아카이빙의 핵심은 단순히 수집하는 것이 아니라 그 자료가 미래에도 존속하게 만드는 것입니다.”

18세기 계몽주의 시대에는 정부와 자선가들이 대중을 위해 책을 보존하고 배포할 필요성에 공감하면서, 도서관 운동이 국제적으로 일어났다. 하지만 그러한 시민적 책임감은 인터넷까지 이어지지 못했다. 디지털 세상의 복잡한 비즈니스 이해 관계 때문일 수도 있고, 엄청난 기술적 난제 때문일 수도 있다. 아니면 보통 사람들은 디지털 자료를 보존할 필요성을 느끼지 못해서일 수도 있다. 책은 분실되거나 손상될 수 있는 유한한 자원이다. 반면 인터넷은 접근성이 매우 뛰어나다. 인터넷에 접속할 수 있는 사람이라면 누구나 웹 브라우저를 열고 URL을 치면 된다. 모든 것이 그 곳에 있을 것이다, 단 그것들이 보존되어 있을 때까지만.

BBC NEWS 코리아 최신 뉴스