"데이터 폭증에 망용량 용량 증설하다 메인 백본망 문제 발생"
"허술한 망관리 문제일 수도, 클라우드는 문제 없어"
[서울=뉴스핌] 김지완 기자 = "이번 구글 먹통 사고는 데이터양 폭증이 주된 원인이다."
자타공인 국내 최고 네트워크 전문가 최준균 카이스트 전기및전자공학부 교수는 최근 잇달아 발생한 구글 장애 원인을 이 같이 진단했다. 구글은 먹통 사건 때마다 '내부 스토리지 할당량 문제'를 언급하지만 IT업계에선 공감을 얻지 못하고 있다. 오히려 그동안 싸구려 부품을 써왔던 구글 클라우드 하드웨어 정책과 운영관리 미숙 등이 도마 위에 오르며 여러 억측이 양산되고 있다.
구글은 지난 14일 밤 8시47분부터 약 45분간 전 세계에서 동시다발적으로 유튜브, 지메일, 플레이스토어(앱마켓), 캘린더, 클라우드, 구글독스(문서), 지도 등 이용자 로그인이 필요한 서비스에서 장애가 발생했다. 또 사건 발생 이틀만인 16일 역시 오전 5시부터 7시반까지 지메일 접속 장애가 발생하는 등 문제는 이어졌다. 앞서 지난달 12일에도 비슷한 사고가 있었다는 점에서 최근 구글 시스템 안정성을 둘러싼 안팎의 의구심이 커지는 형국이다.
뉴스핌은 이 같은 구글 서비스 오류 원인을 진단하고 4차산업 핵심기반 기술로 일컬어지는 '클라우드컴퓨팅'에서 예기치 못한 위험이 발생했는지를 살펴보기 위해 최준균 카이스트 교수와 전화 인터뷰를 했다.
◆ "데이터 폭증에 망용량 용량 증설하다 메인 백본망 문제 발생"
[서울=뉴스핌] 김지완 기자 = 최준균 KAIST 전기 및 전자공학부 교수. [사진=KAIST] 2020.12.17 swiss2pac@newspim.com |
최준균 교수는 이번 구글 먹통 사고 주요 원인으로 데이터 폭증을 지목했다.
"구글의 데이터 처리량이 여타 글로벌 사이트 대비 10배 이상 많다. 페이스북, 아마존 등의 서버들과 비교할 바 아니다. 전 세계 통신사업자 합친 것과 맞먹을 정도로 추산된다. 솔직히 구글이 그동안 큰 문제 없이 이 트래픽을 감당해왔다는게 신기할 정도다."
최 교수는 "당장 우리 스마트폰에 모바일 데이터 사용 현황을 살펴보라"면서 "유튜브가 절반 가까이 된다. 실제 국내 통신3사 망사용의 절반 가량이 유튜브다. 데이터 폭증에 따른 통신망 용량이 감당할 수 없는 수준"이라고 했다.
때문에 그는 조심스럽지만 이번 사고가 데이터 폭증에 따른 망용량 증설 과정에서 사고가 발생했을 것으로 추측했다.
최 교수는 "데이터 용량이 늘어나면 광케이블 등 망용량 업그레이드에 나서게 된다"며 "이 과정에서 예상치 못한 에러 발생으로 구글 메인 백본망이 불통이 된 것 같다. 메인 백본망에 과부하(로드)가 걸리면 전체 서비스가 마비되는 현상이 나타난다"고 전했다.
백본망(Backbone Network)은 서로 다른 네트워크를 상호 연결하는 최상위 네트워크다. 다른 부분망 간 정보를 연결 및 교환하는 중요한 역할을 수행한다.
◆ "데이터 처리망 재배치 또는 허술한 망관리 문제 가능성도"
그는 구글 측이 언급한 내부 스토리지 할당량 문제에 대해선 일부 수긍했다. 구글은 장애 직후인 지난 15일 입장을 내고 "구글 내부 스토리지 할당량 문제로 인한 인증 시스템 장애가 발생했다"고 밝힌 바 있다.
최 교수는 "최근 국내에서 유튜버가 폭발적으로 증가했다"며 "만약 국내 구축된 구글 서버가 약하면, 해당 데이터를 홍콩, 싱가폴로 보내기도 하고 미국 서버와 직접 연결하기도 한다"고 설명했다.
그는 "문제는 한-미간 데이터를 주고 받으면 엄청난 네트워크 비용이 발생한다"며 "구글 입장에선 데이터 트래픽을 효율적으로 처리하기 위해 교통정리를 할 필요성이 생긴다. 이에 망용량을 재설계하고 데이터 처리망을 재배치한다"고 했다. 이어 "고속도로로 치면 메인 도로인 경부고속도로를 손보는 공사를 하게 되는 셈"이라며 "다만 메인 도로는 이중화하기 어렵다. 이걸 건드리다 예상치 못한 문제가 생겼을 가능성도 있다"고 진단했다.
물론 허술한 망관리에 따른 보안 이슈 발생이나 제어 채널 이상 가능성도 배제하지 않았다.
최준균 교수는 "인증이나 등록하거나 하는 채널은 기존 채널보다 관리를 잘해야하는데, 구글이 일반 채널과 같이 운영하다가 문제가 생긴 것 같다"며 "운영관리 채널은 보안이나 공격이 들어올 때를 대비해야 하기 때문에 훨씬 더 상황이 까다롭다. 보안 기능이나 복잡한 상황에서 문제가 생기면 전문가도 원인을 하나하나 찾아나가야 하기 때문에 발빠르게 대응하기 어렵다"고 설명했다.
그는 과거 SK텔레콤도 가입자 위치 등록 서버 오류로 4시간 이상 다운이 돼 500억원 가량 피해보상을 했던 사례가 있다고 했다. 당시 SKT 역시 명확한 원인을 찾지 못했다.
◆ "클라우드 문제는 아냐...신속한 복구는 높이 평가"
일각에서 재기한 값싼 싸구려 부품으로 클라우드를 구축한 구글 운영정책 문제 의혹엔 거리를 뒀다. 최 교수는 "구글 클라우드 문제는 아니다"고 선을 긋는다. "일반적으로 클라우드 네트웍의 평균 이중화 비율이 3.5배에 이른다. 동시에 가동되다가 서버 하나가 죽으면 두 번째, 세 번째가 죽은 서버를 대신한다."
구글은 동네에서 쉽게 구할 수 있는 부품으로 서버를 구축해 유지보수 대응성이 높다고 홍보하지만, 실상은 싸구려 부품으로 서버를 구성해 원가절감 효과를 극대화하는 정책을 구사한다. 이에 전체 서버 중 10%는 항상 고장 상태다. 다만 뛰어난 엔지니어링 소프트웨어(SW) 기술을 바탕으로 외부에선 전혀 눈치채지 못한다.
이에 반해 상대적으로 SW엔지니어링 기술이 부족한 국내 클라우드 사업자들은 구글보다 10배 가량 비싼 레이드(Raid) 디스크를 사용해 서버 고장에 따른 서비스 장애에 대비한다. 이에 최근 사고가 반복되자, 구글 클라우드 하드웨어 정책에 대한 의구심이 커진 상황이었다.
구글의 신속한 대응에 대해선 높은 점수를 줬다. 최 교수는 "구글이 1시간 이내 복구를 했다는 것은 과금 및 운영관리 채널이 상당히 잘 이중화가 돼 있다고 볼 수 있다"고 평가했다.
한편 과학기술정보통신부는 지난 15일 구글의 서비스 장애가 발생한 원인 파악을 위해 관련 사실 및 조치사항에 관한 자료제출 요청을 하겠다는 방침을 밝힌 바 있다.
swiss2pac@newspim.com