“하둡2, 빅데이터·실시간 처리·기계 학습까지 품다”
상태바
“하둡2, 빅데이터·실시간 처리·기계 학습까지 품다”
  • 데이터넷
  • 승인 2016.09.16 08:31
  • 댓글 0
이 기사를 공유합니다

‘실행 가능한 통찰’ 구현 … 엔터프라이즈 기능 강화한 완전체로 진화

올해로 하둡 탄생 10주년이 됐다. 오픈소스 커뮤니티의 전폭적인 지지를 받으며 성장한 하둡은 약점으로 지적되던 엔터프라이즈 기능을 강화한 완전체로 진화 중이다. 이런 이유로 최근 실시간 열풍이 불고 있는 분석 시장에서 하둡 생태계는 뚜렷한 존재감을 내세우고 있다. 하둡 2.0을 왜 기업들이 반기는지 그 배경을 살펴본다. <편집자>

►최종욱 호튼웍스코리아 기술이사

2016년은 하둡(Hadoop) 탄생 10주년을 맞이한 해다. 지난 10년 간 하둡은 오픈소스 커뮤니티의 전폭적인 지지를 받으며 성장했다. 하둡 1.0 시대에는 몇몇 엔터프라이즈 솔루션 기업이 자신만의 표준을 만들어 가는 바람에 파편화 우려도 있었지만 하둡 2.0 시대가 되면서 대부분 독자 노선을 포기하고 100% 오픈소스 대열에 합류하고 있다.

더불어 하둡 2.0은 그 동안 약점으로 지적되던 엔터프라이즈 기능을 강화한 완전체의 모습으로 진화 중에 있다. 이런 이유로 최근 실시간 열풍이 불고 있는 분석 시장에서 하둡 생태계는 뚜렷한 존재감을 내세우고 있다. 하둡 2.0을 왜 기업들이 반기는지 그 배경을 살펴보자.

보관 데이터·실시간 데이터·새로운 앱 결합
많은 기업들은 빅데이터 프로젝트를 시작하면서 보관 데이터부터 다룬다. 하둡2를 통해 수많은 컴퓨터에 저장하고 처리해 기존의 한계를 넘을 수 있다. 아파치 스쿱(Apache Sqoop)이라는 프로그램을 통해 기존 시스템에서 자료를 가져오고, 아파치 하이브(Apache Hive)를 통해 기존 데이터베이스처럼 쓰는 방식이다. 그 밖에도 비정형 데이터를 저장하고 처리해 새로운 데이터를 발견하거나 여러 데이터를 결합해 종합적인 관점을 가질 수 있다.

다음 단계로 실시간 데이터를 다룬다. 실시간으로 쏟아지는 대량의 데이터를 아파치 카프카(Apache Kafka)에 안전하게 보관한 뒤, 아파치 스톰(Apache Storm)에서 즉시 처리한다. 최근에는 아파치 나이파이(Apache Nifi)를 통해 위지윅(WYSWYG) 방식으로 웹 화면에서 간단하게 프로그램을 작성할 수 있다. 사고 대응, 실시간 트렌드, 원격 의료, 보안 검사, 장비 점검, 범죄자 식별, 비용 계산 등의 영역에서 쓰인다. 대응 시간을 수분, 수일 단위에서 밀리 초 단위까지 줄인다.

새로운 앱들이 그 뒤를 잇는다. 아파치 스파크 등 오픈소스 외에도 오라클, IBM, 마이크로소프트, SAS 등에서 하둡2에서 돌아가는 다양한 앱을 출시했다. 고객이 단골이 아닌 다른 지역의 매장에 들어와도 점원이 취향에 맞게 추천할 수 있도록 보조하거나 정비 인원이 알아채기 힘들 정도로 작은 수치 변화를 감지하는 등의 작업도 가능해진다. 이들은 빅데이터를 바탕으로 자동화된 판단을 내려 개인 판단의 한계를 넘어서도록 보조한다.

보관 데이터, 실시간 데이터, 새로운 앱이 만나는 자리에서 실행 가능한 통찰이 나오게 된다. 보관 데이터 플랫폼이 없다면 과거에서 배울 수 없고, 실시간 데이터 플랫폼이 없다면 적시에 결과를 낼 수 없으며, 새로운 앱이 없다면 다양한 관점에서의 분석이 불가능하기 때문이다.

► 100% 오픈소스를 지향하는 엔터프라이즈 하둡 환경

보관 데이터 플랫폼 ‘아파치 하둡’
하둡2의 핵심인 얀(YARN)은 완전한 오픈소스 데이터 운영체제다. 얀은 수십~수천대의 저렴한 x86 서버들을 묶어 하나의 클러스터로 사용할 수 있게 만들며, 여러 앱들이 자원 경쟁을 벌이지 않도록 만드는 조정자 역할을 한다.

기존의 하둡 분산 파일 시스템과 연동해 각 컴퓨터의 로컬 디스크를 바로 읽고 쓸 수 있어, 기존 NAS 및 MPP 기반의 시스템보다 적게는 10배에서 많게는 100배까지 비용 대비 효율을 보인다. 야후에서 하둡1 대비 2배의 성능을 보인 것을 시작으로 많은 기업들이 앞다퉈 도입했다.

하둡2는 기업용 기능을 적극 추가했다. 하둡2에는 보안 프로그램, 클라우드 관리 프로그램, 메타 데이터 관리 프로그램, 운영 프로그램 등이 완전한 오픈소스 소프트웨어로 통합돼 있다. 얀의 최신 버전은 도커(Docker)를 사용해 자원 관리를 더욱 강력하게 만들었으며, 패키지 관리 또한 훨씬 단순하게 만들었다. 하둡2는 이제 엔터프라이즈 환경으로 출격 준비가 완료됐다.

하둡2에서 작동하는 오픈소스 소프트웨어 또한 큰 인기다. SQL 엔진인 아파치 하이브는 수 페타바이트 규모의 데이터도 한 번에 다룰 수 있다. 하이브온테즈(Hive on Tez)는 수 만대의 하둡 클러스터를 사용하는 글로벌 대기업은 물론 수 백대의 하둡 클러스터를 사용하는 국내 대기업, 통신사, 제조사, 유통사에서 호평을 받으며 빠르게 확산되고 있다.

실시간 스트림 처리 엔진인 아파치 스톰은 밀리 초 단위의 빠른 반응이 생명인 웹 및 앱 기업을 중심으로 인기를 얻고 있다. 기계학습 기능을 제공하는 아파치 스파크는 데이터에서 부가가치를 찾아내려는 기업들에게 사실상의 표준이 됐다.

►아파치 나이파이

실시간 데이터 플랫폼 ‘아파치 나이파이’
아파치 나이파이는 사물인터넷(IoT) 시대에 걸맞는 오픈소스 소프트웨어다. 웹 화면에서 구성 요소를 끌어다 놓고 설정하는 것만으로도 간단하게 대용량 실시간 처리 프로그램을 만들고 운영할 수 있다. 아파치 나이파이는 이미 미국 국토안보국(NSA)에서 세계 첩보를 위해 8년 이상 사용했고, 세계적인 동영상 포털 등에서도 광고 집행 내역을 수집하기 위해 사용한 바 있다.

아파치 나이파이는 다양한 시스템들을 연결한다. 데이터베이스, 파일시스템, 네트워크, 로그파일, 클라우드, 하둡, 검색엔진, SNS, 압축, 암호화, 샘플링, 변환, 번역, 이미지 변환 등 140여 가지 이상의 구성 요소를 제공한다. 스플렁크, 몽고DB, SAS ESP, 일래스틱서치 등 인기있는 최신 소프트웨어 연동도 가능할 뿐만 아니라 외부 API와 SDK를 제공해 원하는 기능을 만들어 추가할 수 있으며, 현재 글자 인식과 음성 인식 등 다양한 기능들이 공개돼 있다.

특히 아파치 나이파이는 다양한 환경에서 작동한다. 자바 기반으로 만들어진 분산 실행 엔진이다. 응답시간을 최소화하기 위해 하나의 프로세스에서 멀티스레드로 작동해 메모리를 공유한다. 일반 서버는 물론 메인프레임에서도 설치 및 운영이 가능하다. 최근에는 실행 파일의 크기를 수 메가바이트까지 줄인 버전을 만들어 소형 임베디드 장비에도 설치가 가능해졌다.

► 하둡 앱 생태계

보관 데이터·실시간 데이터 플랫폼에서 돌아가는 새로운 앱
최근 열린 하둡 서밋(Hadoop Summit)에서 구글, 오라클, 마이크로소프트, IBM, SAS 등 주요 소프트웨어 기업들은 하둡2 및 아파치 나이파이와 깊은 통합을 경쟁적으로 선전했다. 이들 소프트웨어 기업들은 자사의 소프트웨어들을 수 천개의 디스크, 수 천개의 CPU 코어에 설치해 사용할 수 있는 확장 기능을 제공한다.

더욱이 용도에 따라 새로운 클러스터를 구성할 필요 없이 하나의 클러스터에서 다양한 앱을 실행할 수 있다. 사용자 입장에서는 새로운 도구를 배울 필요 없이 저렴한 하둡 클러스터를 마음껏 확장할 수 있어 큰 이득이다.

하둡 서밋에서는 연결 플랫폼을 통해 더 많은 데이터를 더욱 깊게 분석해 가치를 만들었다는 고객사들의 증언도 줄을 이었다. 제네럴일렉트릭은 실시간 처리, 기계학습까지 사업 영역을 확장하며 디지털 쌍둥이와 산업기계학습 시대의 서막을 알렸고, 자동차 보험사인 프로그레시브는 IoT와 기계학습을 이용해 GPS 정밀도를 높이고 안전 운전자들에게 5000억원 이상을 할인해주었다.

미국의 대형 카드 기업인 캐피탈원에서는 아파치 나이파이를 이용해 실시간 보안 체계를 만들어 기존의 보안 위협으로부터 자사의 시스템을 안전하게 보호했다. 이처럼 세계는 연결 플랫폼 위에서 새로운 앱들을 이용해 산업재해, 교통사고, 금융사고 등으로부터 더 많은 사람들을 보호하고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.