IT 인프라 관리 인텔리전스 시대 ‘개막’
상태바
IT 인프라 관리 인텔리전스 시대 ‘개막’
  • 데이터넷
  • 승인 2007.10.17 00:00
  • 댓글 0
이 기사를 공유합니다

IT인프라 관리 솔루션
IT 인프라 관리 인텔리전스 시대 ‘개막’

네트워크 관리 시스템에서 RCA 시스템 등으로 발전 … 효율적 관리 방안 모색중

과거에 IT 관리 솔루션이 무엇인지 설명해달라는 질문을 받고 ‘관리’라는 용어가 내포하는 여러가지 때문에 다소 머뭇거렸던 기억이 있다. 지금 돌아보면 “IT 자원관리 솔루션(IT Resource Management Solution)에 대해 설명해 주시겠습니까?”라고 물어주었더라면 답변이 쉬웠을 것이란 생각이 든다. 아마도 IT관리를 한 두번쯤 고민했던 사람이라면 쉽게 공감하는 부분이 아닐까 싶다.
이러한 관점의 차이로 인해 어떤 조직에서는 특정 관리 솔루션을 잘 활용하는가 하면, 어떤 조직에서는 자신의 조직에서 요구하는 솔루션은 지구상에 존재하지 않으니 모두 스스로 개발해야 한다고 단정짓기도 한다. IT 인프라 관리 솔루션에 대해 자세히 알아본다. <편집자>

형성욱 //
한국EMC 글로벌서비스사업부 차장
hyung_sungwook@emc.co

IT의 역사와 함께 이를 관리하는 IT 인프라 관리 솔루션도 길다면 긴 역사를 가지고 있다. 그만큼 정의도 다양하고 이를 활용하는 깊이도 그야말로 천차만별이다. 이러한 상황을 조금이나마 정리하고 서로 다른 견해와 입장을 이해하기 위해 본 기고에서는 ‘관리’ 중에서 사람이나 프로세스가 아닌 컴퓨팅 환경의 ‘IT 인프라’를 대상으로, 특히 광범위하게 ‘솔루션’이라고 이름 붙여질 만한 상용 제품들에 대해서 디바이스 관리 솔루션(Element Management System: EMS)을 출발점으로 현재 근본 원인 분석 솔루션(Root Cause Analysis)까지 진화되어 온 역사를 더듬어 보고자 한다. 이를 통해 IT 관리 솔루션의 장단점, 선택 기준들을 어느 정도 정리해 보고 더불어 최신 근본원인 분석 솔루션(RCA) 사례 및 그 효과를 살펴보도록 하자.

IT 인프라 관리의 역사
IT 인프라의 관리는 그 1세대가 디바이스 관리 솔루션이 될 것이다. 컴퓨터가 등장하고 다양한 벤더가 자사의 제품을 보다 잘 구성하고 모니터링 할 수 있도록 하기 위해 경쟁적으로 특화된 기능들을 가진 디바이스 관리 솔루션을 내 놓았다. 델 오픈-매니지(Open-Manage), HP 인사이트매니저(Insight Manager), 시스코 웍스(Works) 등은 지금까지도 고유의 역할을 톡톡히 해내고 있는 솔루션들이다.
이 솔루션들은 그 태생이 자사의 제품을 보다 돋보이게 하려는 목적에서 출발했기 때문에 동일 벤더의 제품 관리위주로 발전해왔음은 당연하다. 따라서 자사 제품의 구성과 운영이 위주이고 타사 제품과의 상호 관계나 이벤트 또는 대규모 이기종 엔터프라이즈 환경에 필요한 기능은 없었다.
이러한 개별 시스템들이 함께 운영되는 환경의 관리 작업은 하나의 큼지막한 모니터에 각각의 디바이스 관리 솔루션을 여러 개의 창으로 띄우고 크기나 배열을 잘 정리하여 동시에 모니터링하는 수 밖에 없었다. 이러한 방식은 심도있는 관리가 가능하지만 특정 상황 발생시 상호 연관성을 파악하기는 어려운 단점이 있다.
이러한 여러 개의 창을 하나로 통합하고 상호 연관관계를 도시하려는 노력이 이어지면서 자체 개발을 통한 ‘통합 콘솔’이라는 개념이 각광받았고 이에 부응해 2세대라 할 수 있는 네트워크 관리 시스템(Network Management System: NMS)이 등장했다.
썬 넷매니저(Net Manager), HP 네트워크노드매니저(Network Node Manager), IBM 넷뷰(NetView) 등이 그것이다. 이로써 IP 네트워크를 검색(discovery)하고 이벤트를 단일 콘솔에 보여주며 필요시 각각의 개별 요소 관리(Element Manager) 창을 즉시 띄워 작업할 수 있게 됐다. 당시의 네트워크는 씬 이더넷(Thin Ethernet), 리피터(Repeater), 씨리얼 기반 왠(WAN), 터미널 기술이 최신이었고, 대규모 네트워크라고 해도 브릿지(Bridge)를 이용한 50 여개의 디바이스가 장착된 정도의 규모였다. 이러한 환경에서 디바이스들의 연관 관계는 어느 IP 네트워크에 속해있는지를 파악하는 정도면 충분했다.
그런데 인터넷 혁명으로 네트워크 수요가 빠르게 증가하며 PC, 라우터, 가상랜(VLAN), 클라이언트-서버 기술이 발달하게 되자 IP 네트워크 관계만으로는 실제 토폴로지를 파악하기 어렵게 되었고 각 이벤트를 통합하는 콘솔에는 소위 말하는 ‘이벤트 폭풍(Event Storm)’이 몰아치게 됐다. 사실 이를 극복하려는 노력이 벤더 스스로 없었던 것은 아니지만 대부분의 NMS 벤더는 이미 많은 부분을 API에 의존한 타 제품들의 모듈 병합(Add-on)에 의존하고 있어서 그 변화에 적응하기가 쉽지 않았다.
마이크로소프트가 16비트 운영체계에서 벗어나 새로운 운영체계로 변화하기 위해 힘겨운 시간을 보낸 것도 같은 이유였다. 소규모 네트워크를 고려해 개발된 아키텍처의 중복된 폴링(Polling)으로 인한 과부하, 이벤트 관계의 수동 설정, 확장성의 제약, 전용 관리 네트워크 필요성 등의 문제들을 그대로 안고 그 위에서 발전할 수 밖에 없었던 이유다.
2세대 네트워크 관리 시스템을 잇는 3세대는 바로 ‘이벤트 폭풍’ 문제를 먼저 해결하고자 개발된 첫번째 노력은 이벤트 상관관계 분석 시스템(Event Correlation System)이 될 것이다. ’관리 시스템의 관리 시스템’이라고 할 수 있는 이 시스템들은 커맨드 포스트(현재의 BMC PEM), 티볼리 TEC, CA 유니센터, 마이크로뮤즈 넷쿨(NetCool) 등이다. 이들은 각각의 요소 관리, NMS, 디바이스 로그 등을 이벤트 어댑터들을 통해 디스크 상의 단일 데이터베이스에 수집해 경험자의 규칙에 의해 필터링하고 어느 것이 중요한 이벤트인지를 가려내어 덜 중요한 이벤트는 무시하고 중요한 이벤트만을 알려주는 구조이다.
시스템 구조를 잘 이해하는 사람이 첫 구현시에 규칙을 잘 설정만 하면 이후에는 자동화를 이룰 수 있을 것으로 기대했으나 현실은 달랐다. IT 인프라의 변화는 온/오프라인 비즈니스 요구에 따라 발빠르게 변화해야 했고 거의 매일 일어나다시피 하는 IT 인프라의 변동사항을 몇몇 사람이 지속적으로 등록하고 규칙을 바꿔줘야 하는 상황이 반복되기에 이르렀다. 자동화를 추구하다 역으로 사람들이 IT 인프라 관리의 노예가 되어버린 형국이었다.

1~4세대까지 꾸준한 변화 지속
3세대 이벤트 상관관계 분석 시스템이 해결하고자 시도했던 또 다른 부분은 근본 원인 분석(Root Cause Analysis: RCA)이다. 상호 연관 관계를 파악한 상태이고 더불어 구현시에 그 분야에 대해 잘 아는 경험자의 지식을 구현할 수 있으므로 쉽게 그 원인을 찾을 수 있게 되리라는 기대였다. 그러나 이 역시 그 바탕이 되는 관계 설정이 디스크 상의 데이터베이스에 관리 인력의 지속적인 수작업 입력이 수반돼야 했고 구현에 참여한 사람의 경험에 의존한 부분이라 그 정확성을 보장받기도 힘들어 근본 원인에 대한 의구심이 생기기 시작했다.
더군다나 IT 관리 인프라를 ‘관리 혁신 프로젝트’이라는 이름으로 투자 계획을 세워 진행할 때와 구현된 이후에 ‘일상업무’로 유지할 때는 분명히 이에 대한 관심도가 떨어지기 마련이다. 또, 프로젝트는 성격상 그 범위(Scope)와 목적(Goal)이 분명히 정해져 있다 보니 기업 입장에서 지속적인 인력 투입이 요구되고 효율성을 반신반의하게 되는 IT 관리 인프라 프로젝트에 선뜻 나서긴 쉽지 않게 된다. 이러한 상황이 현재 상당수의 기업이 직면하고 있는 과제다.
이제 제 4세대를 이야기할 순서다. 그러나 아직 진행중인, 아니 막 시작된 세대를 정리하는 것은 무리가 있다고 본다. 따라서 본 기고에서는 현재의 상황을 설명하고 그 판단은 독자의 몫으로 남겨 두고자 한다.
그렇다면 2, 3세대의 선두 주자들은 그 이후 어떤 노선을 걷고 있을까? HP는 리버소프트(Reversoft)사의 제품을 OEM해 규칙 기반의 자동화된 근본원인분석(RCA) 솔루션을 계속 추구하고 있다. 마이크로뮤즈(Micromuse)는 리버소프트(Riversoft)의 프리시즌(Precision)을 인수해 모델 기반의 근본원인분석 솔루션을 넷쿨과 함께 가져가고 있었다. 이후 IBM이 마이크로뮤즈를 인수해 티볼리 넷뷰를 대체하고 있다.
CA는 스펙트럼(Spectrum)과 콩코드(Concord)를 인수했으나 시장에서 적극적으로 드라이브하지 않고 있는 상황이다. 이러한 상황을 정리해 보면 지금까지의 이벤트 상관관계 분석 시스템 단계까지 발전에 이어 또 다른 목표로 변화를 도모하고 있다는 것으로 풀이될 수 있겠다.
이들 벤더 중 케이블트론(Cabletron)의 스펙트럼, 리버소프트의 프리시즌의 기술적 배경으로 이들의 목적지를 짐작할 수 있다. 과거의 2, 3세대 제품 아키텍처에 얽매이지 않은 개념을 바탕으로 이벤트 상관관계 분석에 이어 케이블트론이 1989년 스펙트럼으로 시작한 RCA를 재정의하는데 집중하고 있다.
즉, RCA를 경험자의 규칙 기반이 아닌 각 관리 요소간의 연관성(Connectivity)으로 접근한다는 것이다. 이를 가능케 하는 이론적 근거가 모델 기반 토폴로지다. 각각의 구성 요소들을 클래스(Class)로 정의하고 이를 통해 상호 물리적 연관 관계를 표현할 수 있게 된다. 이를 추론(Inference) 기반 RCA라고도 부른다.
그러나 여기에서는 논리적 연관성(Connectivity)을 정확히 표현할 수 없다는 한계가 있다. 또한 모델은 메모리상에 운영되지만 데이터에이스는 여전히 디스크상에 저장되고 있고 90년대 초반의 물리적 토폴로지 기술을 배경으로 하고 있어 90년대 후반에 급격히 발전된 가상랜, MPLS와 같은 새로운 논리적 토폴로지를 널리 사용하고 있는 현재의 IT환경에서 실시간 RCA를 수행하는데 있어 큰 걸림돌이 됐다.
이를 극복한 벤더로 스마츠(Smarts)의 인차지(InCharge)를 꼽을 수 있고 스마츠는 2004년 말 EMC와 합병됐다. 스마츠의 상관관계 분석 방식은 추론 기반 RCA가 아닌 코드북(Codebook) 기반 RCA를 수행하는 것으로, 발생할 수 있는 모든 현상을 미리 정의해 두고 현상들의 고유한 조합을 통해 RCA를 수행하는 경우다. 이러한 방식은 가상랜, MPLS, OSPF, BGP 등 논리적인 토폴로지와 물리적 토폴로지 간의 영향 관계까지 파악할 수 있게 해주는 이점이 있다.
모델링의 관점으로 보면 이를 확대 발전시키는 부분은 애플리케이션, 서비스, 그리고 비즈니스 영향 파악(Impact Analysis)이다. 규칙 기반의 모델링 개념을 구현한 벤더로 티볼리 TEC, CA 유니센터, 마이크로뮤즈 넷쿨 옴니버스, HP OVO 서비스 인포메이션 포털 등이 있고, 모델 기반의 모델링 개념을 구현한 벤더로 스마츠 애플리케이션 커넥티비티 매니저가 있다.
앞서 기술한 대로 모델 기반의 애플리케이션과 서비스 모델링이 규칙 기반의 모델링보다 규칙의 설정과 유지 등 사람의 개입을 최소화하고 아키텍처의 확장성이 있어 변경 사항 발생시에 스스로 감지하고 반영하는 자동화가 가능하다.
무언가 부족한 것이 있다면 그것은 바로 포트 모니터링에서 오는 한계다. 이미 토폴로지가 파악된 상태에서 해당 디바이스에 어떤 애플리케이션이 있는지 확인하는 것은 관리 대상 디바이스에 불필요한 부하를 주지 않기 위해 에이전트를 설치하지 않고 포트 모니터링만으로 수행하게 된다. 외부와 통신을 수행하는 상용화된 모든 애플리케이션을 기본적으로 파악할 수는 있지만 인하우스에서 개발된 애플리케이션을 위해서는 포트와 애플리케이션의 관계를 등록하는 사람의 인위적 작업이 필요하다는 점이다.
근래에 이를 극복하고 자동화된 애플리케이션들의 토폴로지 검색(discovery)를 수행하는 벤더로 EMC가 인수한 엔레이어스(nLayers)의 애플리케이션 디스커버리 매니저가 있다. 네트워크상의 패킷 일부를 모니터링(passive discovery) 함으로써 애플리케이션 간의 연관 관계와 네트워크상의 트래픽을 파악하고 적절한 표준 프로토콜을 이용해 상세하게 인벤토리 파악(active discovery)하여 보완함으로써 하드웨어에서 소프트웨어까지의 토폴로지를 자동화한 기술을 구현했다.

IT 관리 인프라 솔루션의 변화에 따른 교훈
지금까지 살펴본 IT 관리 인프라 솔루션의 역사는 1세대 디바이스 관리 시스템(EMS), 2세대 네트워크 관리 시스템(NMS), 3세대 이벤트 상관관계 분석 시스템(이벤트 상관관계 & 입력 규칙 기반의 RCA), 4세대 모델 기반 RCA(추론 기반, 코드북 RCA) 순으로 발전해 왔다. 이전의 2 또는 3세대 벤더들은 기존 인력의 개입이 지속적으로 필요한 솔루션을 모두 자동화가 가능한 4세대로 체질 변화를 시작했고 이를 구현하는 방법으로 인수합병을 선호하고 있다는 것을 알 수 있다.
이러한 역사를 통해, 그리고 그간의 경험을 통한 몇 가지 공통적인 인식을 정리해 보면, 당연한 이야기겠지만 요소 기술의 발전을 벤더가 입장에 따라 어떻게 수용하였는가에 따라 솔루션이 크게 다르게 나타난다는 점이다. 프레임워크라는 이름으로 제품을 모아서 ‘뱃지 엔지니어링(Badge Engineering)’을 통해 브랜드만을, 또는 UI만을 통합하는 벤더도 있다.
실제로 시험 환경에서는 화려하게 동작하지만 실제 엔터프라이즈 환경에서는 바로 한계가 드러나는 ‘마케팅 소프트웨어’로 남기도 한다. 또한 벤더는 시장 논리가 우선이다. 벤더가 인수합병 후 제품을 지속적으로 발전시키기도 하지만 시장의 논리에 따라 단종하고 다른 제품에 집중하는 사례도 종종 있다.
IT 관리 솔루션에 대해 가지고 있는 의문과 궁금증을 앞서 살펴본 역사에서 단초를 찾아 풀어본다면 다음과 같이 설명이 가능하다.

향후 IT 인프라 관리 솔루션의 발전 전망
근래에 CMDB(Configuration Management Database)를 많이 이야기하고 있고 ITSM(IT Service Management)을 실제로 구현했다는 발표도 본 기억이 있다. CMDB의 정의를 뭐라고 하던 그건 실제로 운영될 각 조직에서나 기업에서 정의하는 것이 정답이자 그 실체다. CMDB의 표준화가 얼마나 진행되었을까? 그 표준화는 진정한 각 조직이 원하는 CMDB를 모두 아우를 수 있을까? 몇 개의 벤더사가 배타적으로 CMDB 연합워킹그룹(Federation Working Group)과 같은 표준화 기구를 설립하고 노력을 지속하고 있지만, 단언하건대 이렇다 할 결과물을 찾기란 쉽지 않다.
그렇다면 CMDB를 진행하려는 주체인 조직 또는 기업은 표준 모델과 방향을 어디에서 찾을 것인가? 이에 대한 방향을 제시하기 위해 이미 시작된 IT 인프라 관리의 패러다임 변화를 빠르게 감지하고 실제로 IT 인프라 자동 관리를 성공적으로 구현하고 있는 현대정보기술(HIT) 사례를 살펴보도록 하자.
현대정보기술의 경우, 데이터센터 내 공용 네트워크와 서버 등의 IT 인프라 자원은 수년 전부터 2세대라 할 수 있는 네트워크 관리 시스템을 통해 관리하고 있었다. 그러나 앞서 살펴본 바와 같이 해당 프레임워크 기반의 모듈의 사용과 유지보수 기술을 습득하고 달성하는데 많은 시간이 소요되고, 관리를 위한 수작업이 일일이 필요했기 때문에 인력 리소스가 지나치게 많이 투여된다는 큰 단점을 겪고 있었다. 사업의 발전에 따라 다양한 네트워킹의 구현으로 IT 인프라 역시 더욱 복잡해짐에 따라 운영중인 자체 CMDB를 보다 정제된 데이터로 구성해야 했고 기존의 메시지 홍수를 일으키는 모니터링 방법보다 한발 진보되고 혁신적인 RCA 모니터링의 필요성을 절감하기에 이르렀다.
현대정보기술은 데이터센터 자체의, 그리고 입주사 고객의 모니터링 요구 수준을 만족시키기 위해 지능적인 IT 인프라 관리 자동화 솔루션인 ‘EMC 스마츠’를 검토하기 시작했고, 테스트 설치를 통한 시범 운영을 거쳐 올해 5월 데이터센터에 구축을 완료했다.
기존의 프레임워크 기반의 종합 모니터링 형태를 개별 목적에 부합하는 최적의 솔루션으로 재구성하기로 하고, 통합 관제 시스템으로 투자가 완료된 기존 프레임워크를 사용하되, SLA(서비스수준협약)에 가장 큰 영향을 미치는 정확한 통합 장애 감지 및 원인분석 부분을 먼저 스마츠를 이용해 구축하는 전략을 채택했다.
에이전트 설치 없이 표준화된 프로토콜과 방법을 이용해 한 달 가량의 짧은 기간 내에 구축과 검증을 모두 완료했고 서비스와 네트워크에 발생하는 모든 문제점의 RCA를 자동으로 분석하는 효과를 테스트 시점부터 즉각적으로 확인할 수 있었다. 실제로 구축이 진행 중이던 지난 4월초 장애 발생 상황에서 단 1분 20초 만에 RCA를 단 한 줄로 보고 받고 바로 조치하기도 했다. 기존 프레임워크 시스템과 비교했을 때 장애 감지 메시지도 현저하게 줄어들었다.
기술 실무담당자는 “장애관리 통합 이후, 통합 관제시스템으로부터의 장애메시지 수신 빈도가 일 평균 140건에서 3건으로 현저히 감소했다. 이번 장애의 경우, 원인의 추적과 확인까지 소요된 시간은 단 5분이었으며, 장애 처리는 장애 감지 후 20분 내에 완료되는 획기적인 성과가 있었다”고 밝혔다. 데이터센터 책임자는 “스마츠의 가장 큰 도입효과는 운영인력 절감에 있다. 직관적인 사용법으로 웹을 통해 쉽게 접근하고 조회가 가능해 장애 발생시 그 원인을 쉽게 알 수 있도록 해준다. 운영자에게 사전에 구성에 대한 정보 전달이 거의 필요 없기 때문에 전문 운영자가 없는 시간에도, 기존 업무와 공유하는 형태로 통합 관리 할 수 있다는 점에서 효용이 가장 크다”고 말한다.
현대정보기술 사례는 새로운 모델 기반의, 코드북 RCA 기반의 IT 인프라 관리솔루션이 RCA에 소요되는 수작업 시간을 획기적으로 단축함으로써 장애로 인한 피해를 최소화해 준 사례라고 하겠다. 기존의 조직과 기업의 구성원들에게 이미 익숙한 프레임워크 기반의 NMS 및 SMS 등의 인터페이스와 이벤트, 로그 등이 연동되고 통합돼 재교육이 불필요했고, SLA(서비스수준협약)의 핵심이라 할 수 있는 원인과 영향 정도를 단순화된 인터페이스를 통해 대응 인력에게 신속하게 전달함으로써 IT 관리 목적을 분명하게 달성하도록 구현한 영향 분석 사례다.
현대정보기술은 스마츠 도입 이후 일상적인 장애 원인 파악업무는 시스템이 스스로 알아서 판단, 처리할 수 있게 됐고, 이제는 애플리케이션 관리 자동화까지 확대돼 이제는 모든 역량을 사업 활동에 집중시키는 성과를 이뤄냈다.

IT관리 인프라의 혁신, ‘지금이 바로 시작할때’
본 기고를 통해 지금까지 당연하게 생각했던 부분들이 정말 당연한 것이었는지 돌아볼 기회가 되길 바란다. “계속해왔던 프로세스이니까 크게 잘못되진 않겠지?”, “오랜 세월 검증된 솔루션이니까 우리 조직에도 잘 맞겠지?” 같은 생각은 비효율적인 프로세스라는 악순환의 쳇바퀴에 빠지는 결과를 가져온다는 사실을 강조하고 싶다.
“대포를 쏠 때는 항상 3초 정도 뒤로 물러나 있어야 한다”라는 미군의 교전 수칙이 근래까지 지켜지고 있었다는 것은 이러한 비효율적인 프로세스 함정의 단편을 보여준다. 한 시대에서 당시의 기술을 배경으로 일정한 프로세스가 만들어졌다면 이는 시간이 지남에 따라 항상 재검토되고 보다 효율적인 방안을 찾아야 하는 것은 당연한 변화 노력이다.
IT 인프라 관리에 있어서 지금이 바로 그 시점이다. 이제는 단순 네트워크 시대의 기술을 배경으로 탄생한 오래된 제품들에 대한 미련을 과감히 버릴 필요가 있다. 그 중 꼭 필요한 것들이 무엇인지 목적을 분명히 하고 나머지는 비워야 한다. 비워져야 새로운 기술들이 채워지고 비효율의 쳇바퀴에서 벗어나 발전할 수 있다. 기술은 기술의 변화 속도를 따라 스스로 파악하고 해결하게 하고 사람은 비로소 보다 창의적인 일을 사람답게 할 수 있는 IT 인프라 관리 패러다임의 변화가 이미 시작된 것이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.