아마존웹서비스(AWS) 서버 중단 … 전 세계 인터넷 혼란이 벌어진 이유는?

아마존웹서비스(AWS)는 매우 힘든 하루를 보냈다.
미국의 또 다른 대형 기술 기업인 '클라우드플레'어의 CEO는 이렇게 표현했다. 기업 1000여 곳과 전 세계 인터넷 사용자 수백만 명에게 영향을 미친 이번 AWS 서버 장애가 자사와는 무관하다는 사실에 안도하며 나온 말일 것이다
이번 장애의 여파는 다양한 곳에 미쳤다. 스냅챗, 레딧과 같은 주요 SNS는 물론 로이드, 핼리팩스와 같은 은행, 로블록스, 포트나이트와 같은 게임 등의 접속이 원활하지 않았다.
AWS는 인터넷의 중추로 불릴 만큼 전 세계에 폭넓게 진출해 있는 미국의 대규모 클라우드 컴퓨팅 업체이다.
전 세계 인터넷 서비스의 약 3분의 1이 AWS를 기반으로 구동된다. 저장공간과 데이터베이스 관리 서비스를 제공하고, 기업들이 자체적으로 값비싼 인프라를 구축할 필요를 줄여주며, 이러한 플랫폼 간 트래픽도 연결해준다.
즉, AWS는 '귀사의 컴퓨팅 인프라는 우리가 대신 관리해드린다'고 홍보하는 기업이다.
하지만 오늘은 아주 사소한 문제가 아주 크게 잘못되었다. 바로 '도메인네임시스템(DNS)' 오류라 불리는 흔한 유형의 장애다.
아마도 지금 IT 업계 종사자들은 눈을 굴리고 있을 것이다.
이런 흔한 오류 하나가 엄청난 혼란을 초래할 수 있다. '항상 문제는 DNS 때문'이라는 말을 괜히 많이 들어본 게 아니다.
사용자가 앱이나 링크를 클릭하면 기기는 해당 서비스로의 연결을 요청한다. DNS는 이 요청을 안내하는 지도 같은 역할을 한다.
그런데 오늘, AWS는 그 방향 감각을 잃은 셈이다.
이로 인해 스냅챗, 캔바, 영국국세청 같은 플랫폼 자체에는 문제가 없었으나, AWS가 사용자 트래픽을 제대로 안내하지 못하면서 접속이 불가능했다.
이토록 파장이 큰 이유는?
이러한 오류가 발생하는 이유는 여러 가지다.
대부분은 유지보수 과정에서 문제가 생기거나, 서버가 제대로 작동하지 않아서이다. 혹은 누군가가 설정을 잘못한 실수일 수도 있고, 극단적인 경우에는 사이버 공격으로 인해 발생하기도 한다. 다만 이번 사건의 경우, 현재까지 사이버 공격과 관련한 증거는 없다.
AWS 측은 이번 오류가 미국 버지니아 북부에 자리한 대규모 데이터센터 단지에서 발생했다고 밝혔다. AWS의 데이터 시설 중 가장 오래되고 가장 규모가 큰 곳이다.
전문가들은 이번 사태가 '모든 달걀을 한 바구니에 담는 것'이 얼마나 위험한지 보여주는 아주 전형적인 사례라고 입을 모은다. 실제로 AWS는 하나의 거대한 기업이며, 기업 수백만 곳이 이 인프라에 의존한다.
이들의 지적은 물론 타당하다. 그런데 문제는 AWS와 유사한 규모의 서비스를 제공할 수 있는 대안이 별로 없다는 점이다.
사실상 주요 경쟁자는 2곳뿐이다. 마이크로소프트의 '애저'와 구글의 '클라우드 플랫폼'이다. 모두 미국의 거대 기술 기업이다.
규모가 더 작은 경쟁사로는 'IBM'과 중국의 '알리바바'가 있다. 유명 슈퍼마켓 체인 '리들'의 모기업이 지난해 '스택잇'이라는 서비스를 내놓으며 유럽 시장에서 AWS와의 경쟁을 선언했다.
그러나 여전히 AWS의 시장 점유율은 압도적이다.
일각에서는 영국과 유럽이 자체 인프라를 강화하여 미국산 클라우드 서비스 의존도를 낮춰야 한다고 주장하나, 이미 너무 늦었다고 말하는 이들도 있다.
과거 정부인사로부터 어느 국회의원이 영국판 AWS를 만들자며 비공식적인 제안을 내놓자, 누군가가 '그런걸 왜 하냐. 이미 우리에겐 AWS가 있지 않냐'고 답했다는 일화를 들은 적 있다.
하지만 오늘 같은 사건은, 그렇게 단순하지 않다는 점을 여실히 보여준다.