차세대 데이터 레이크 아키텍처, 고성능 AI 분석에 제격

강준범 효성인포메이션시스템 컨설턴트
IT 발전으로 데이터 형태 다양화…데이터 수집·분석 정확성 확보해야

[데이터넷] 올해 가장 뜨거운 키워드는 AI다. 고성능 분석 환경에 기반한 챗GPT, 달리(Dall-E)와 같은 AI 모델을 통해 멀게만 느껴지던 AI 분석이 우리의 일상 깊숙한 곳으로 들어왔다. 데이터가 기하급수로 증가하면서 고성능 분석 환경은 기업에 더욱 중요해지고 있다. 고성능 분석 환경의 핵심으로 자리잡은 고성능 데이터 레이크에 대해 살펴본다. <편집자>

많은 기업·기관은 오래 전부터 데이터 분석을 바탕으로 인사이트를 도출해 왔다. 초창기 IT 시장에 등장한 관계형 데이터베이스관리시스템(RDBMS) 기반 데이터 웨어하우스가 그 시작이다. 주로 정보계 시스템을 기반으로 정형 데이터를 활용한 인사이트 도출에 활용됐다.

그러나 IT가 발전하면서 비정형/반정형, 실시간, IoT 센서 등 데이터 형태가 다양해지면서 정확한 분석을 위해 여러 형태의 데이터를 수집하고 분석하는 ‘데이터 레이크(Data Lake)’ 아키텍처가 발전하게 됐다.

데이터 레이크 아키텍처 발전 동향

초창기 하둡 기반 데이터 레이크 아키텍처는 비정형/반정형 데이터 저장을 위한 하둡 저장소와 NoSQL과 같이 다양한 형태의 데이터 수집을 위한 여러 형태의 저장소로 이뤄진다.

이는 데이터 중복과 사일로, 데이터 간 연관 관계 도출의 어려움을 발생시켰고, 하둡 분석 환경인 에코 시스템에 대한 의존도, 하둡 노드 증설 비용도 문제로 나타났다.

이를 해결하기 위해 등장한 것이 오브젝트 스토리지 기반 단일 저장소인 ‘차세대 데이터 레이크 아키텍처’다. 이 과정에서 아마존웹서비스(AWS)가 큰 역할을 했다.

AWS가 S3(Simple Stovage Service)와 함께 다양한 분석 도구를 출시한 덕분에 S3 API를 통해 S3 오브젝트 스토리지 기반 퍼블릭 클라우드 상의 데이터 레이크 아키텍처를 수립할 수 있었다. 스토리지 업체도 여기에 맞춰 S3 API 지원 오브젝트 스토리지를 출시하면서 S3 호환 오브젝트 스토리지는 차세대 데이터 레이크의 1차 저장소로 자리잡았다.

데이터 레이크에 저장되는 데이터의 양이 기하급수적으로 증가하다 보니, 기업들은 보다 정확하고 빠른 분석을 위해 GPU 기반 데이터베이스, GPU 딥러닝 등 고성능 분석 환경을 도입하고 있다.

또한, 대용량 데이터의 신속한 분석·엔터프라이즈 AI/ML 혁신을 위한 ‘데이터 레이크하우스(Data Lakehouse)’는 확장 가능한 ‘데이터 레이크’의 속성과 구조화된 ‘데이터 웨어하우스(DW)’ 기능을 결합한 새로운 개방형 데이터 관리 아키텍처로 활용되고 있다. 이처럼 시대가 발전함에 따라 다양한 형태의 데이터를 기반으로 새로운 기술과 분석에 대한 요구사항도 점차 다양해지고 있다.

AI 분석 위한 차세대 고성능 데이터 레이크

기업의 비즈니스 데이터를 효율적으로 저장하기 위한 데이터 레이크는 기업 데이터의 중요한 혁신 수단으로 손꼽힌다. 데이터 레이크는 데이터 사일로(Silo) 현상을 방지하고, 데이터 분석을 위한 모든 종류의 데이터를 취합하는 데이터 중앙 저장소 역할을 한다.

그러나 진정한 데이터 레이크를 구현하기 위해서는 단순한 대규모 저장소뿐 아니라 고성능 데이터 처리가 반드시 필요 하다.

AI 분석을 위해 차세대 고성능 데이터 레이크가 갖춰야 할 역량을 살펴보자.

첫째, 자동 티어링(Auto-tiering)이다. AI 분석에서는 데이터를 핫-웜-콜드 데이터로 분류하고 비용 효율을 높이기 위해 별도의 저장소로 아카이빙한다. 이때 콜드 데이터로 아카이빙된 데이터를 분석에 활용하려면 고성능 스토리지로 다시 저장해야 하는데, 자동 티어링 기능이 있으면 이 과정이 생략된다.

둘째, 멀티 프로토콜 지원이다. 끊임없이 새로운 분석 방법과 도구가 출시되고 있기 때문에, 자동 티어링 구조를 갖춘 스토리지더라도 분석에 쓰일 도구를 한정해서는 안 되고 멀티 프로토콜을 필수적으로 지원해야 한다.

셋째, 높은 IOPS(초당 입출력 횟수)와 쓰루풋(Through put) 보장이다. 딥러닝 IO는 전처리, 모델 학습 등에 다양하게 데이터와 데이터셋을 잘게 쪼개 사용하는 것이 특성인데 이 과정에서 작은(small) IO 요청이 빈번하게 일어난다. 따라서 높은 IOPS가 필수며 저장소가 메타데이터 오버헤드를 최소화하는 구조를 갖춰야 한다.

최신 엔터프라이즈 워크로드에 적합한 초고성능 솔루션

고성능 분석 환경이 요구하는 데이터 저장소의 성능 요건을 맞추기 위해서는 ‘고성능 병렬 분산 파일 시스템 저장소’가 각광받고 있다.

스토리지 레이어의 병목 현상을 해결하면서 무제한급 확장이 가능한 병렬 분산 파일 시스템은 차세대 고성능 데이터 레이크 아키텍처로 부상했다.

효성인포의 HCSF(Hitachi Content Software for File)는 초고성능 병렬 파일시스템과 오브젝트 스토리지가 통합된, 초고성능과 대용량 확장성을 모두 제공하는 파일 스토리지다.

확장성이 뛰어난 오브젝트 스토리지와의 정책 기반 오토 티어링 파일 시스템 운영으로 비용 효율적인 데이터 관리가 가능하다. 다양한 산업 분야가 차세대 데이터 레이크를 통해 비즈니스 환경을 업그레이드하고 있다.

한 글로벌 바이오 연구소는 HCSF를 활용해 저장 방식을 신경 쓰지 않고 방대한 양의 입자 이미지를 효율적으로 저장하고 있다. 글로벌 카드사, 자율주행 자동차, 방송·엔터테인먼트, 반도체 분야에서도 HCSF를 도입해 데이터 분석 성과를 높이고 있다.

AI 비즈니스를 준비하는 기업 중 LLM 모델·AI 모델을 한 가지 관점에서만 고민하는 경우가 많다. 그런데, 이러한 모델은 끊임 없이 진화하고 있어 지속적으로 운영하기가 쉽지 않다.

탄탄한 인프라를 위한 컴퓨팅 파워, 네트워크 속도, 스토리지 구성 등을 초기부터 종합적으로 살펴 보고 기업 환경에 맞는 전략을 수립해야 향후에 기회비용을 최소화할 수 있다.

특히, 폭발적으로 증가하고 있는 다양한 종류의 데이터를 비용 효율적으로 저장하고 활용하는 데이터 운영의 혁신을 위해 효성인포메이션시스템은 고객에게 최고의 스토리지와 인프라 환경 구현을 위한 최상의 전략을 제시할 것이다.

데이터넷 다른기사 보기