“플래시 특성 파악, 올플래시 스토리지 도입 성패 좌우”
상태바
“플래시 특성 파악, 올플래시 스토리지 도입 성패 좌우”
  • 데이터넷
  • 승인 2013.11.15 17:33
  • 댓글 0
이 기사를 공유합니다

올플래시 스토리지 ‘봇물’ … HDD·플래시 특성 차이 이해 중요

스토리지 시장이 새로운 국면을 맞고 있다. 기존 스토리지의 주요 저장매체로 사용되던 HDD가 더 빠른 성능을 위해 플래시로 전환되고 있기 때문이다. 하지만 플래시 스토리지를 제대로 평가하고, 선택하기 위한 공인된 기준이 존재하지 않아 어려움을 가져오고 있다. 플래시는 HDD와 기본적인 특성이 다르기에 이 차이점을 올바르게 인지해야만 플래시 도입의 효과를 얻을 수 있다. 플래시 스토리지의 선택 기준을 알아본다. <석성호 퓨어스토리지코리아 부장 / sseok@purestorage.com>

모든 기술은 진화한다. 때때로 기술은 점진적인 것에서 획기적인 것으로 이동, 플래시 기반 스토리지가 바로 여기에 해당되는 경우라고 할 수 있다. 올바른 솔루션을 채택해 제대로 구축하면 플래시 스토리지는 기업의 경쟁력을 획기적으로 향상시키고 IT 부서의 자본 및 운영 비용을 낮춰줄 수 있다.

플래시 스토리지는 애플리케이션의 응답속도를 개선해 기업 전반에 걸쳐 경쟁 우위를 제공할 수 있을 뿐만 아니라, 데이터베이스, 가상 데스크톱과 기타 애플리케이션에서 발생하는 대기 시간을 단축해 직원들의 생산성을 한 차원 높일 수 있는 가능성을 열어준다. 플래시는 속도, 공간 효율성 및 높은 안정성으로 기업 애플리케이션을 위한 최고의 스토리지 수단으로, 기계식 디스크의 한계를 넘어서는 대안이 될 수 있다.

플래시 스토리지의 결정에는 필요한 많은 요소들이 있다. 이 요소들은 플래시 기반 스토리지와 전통적인 하드 드라이브 기반 스토리지를 구분짓는 여러 가지 미묘한 차이점이 된다. 대부분의 하이브리드 스토리지 시스템은 전통적인 하드 디스크 드라이브 기반 스토리지 시스템으로 디스크 드라이브 형태로 패키지되고 플래시 메모리 옵션을 제공하기 때문에 진정한 플래시 스토리지라고 할 수 없다. 이 접근 방식은 디스크 계층을 보다 빠르게 추가할 수 있다는 점은 확실하지만 플래시 스토리지만의 고유한 기능들이나 혜택을 제공하지는 못한다.

지난 수 개월간 많은 공급업체들이 플래시 시장에 뛰어들어 ‘올 플래시 스토리지’의 자격을 갖춘 다양한 신제품들을 선보였고, 최종 사용자들에게 선택의 폭을 넓히고 있다. 선택의 여지가 많다는 사실은 활성화된 시장의 긍정적인 측면이지만, 수많은 새로운 제품들의 출시로 인해 새로운 기술의 혜택을 누리고자 하는 사용자에게 올바른 스토리지를 선택하는 일은 한층 더 복잡해졌다.

그렇다면 어떻게 올바른 결정을 내릴 수 있을까? 플래시 스토리지 시스템 솔루션을 평가하고 선택할 수 있는 기준을 알아보자.

플래시 메모리에 관해 알아야 할 4가지
플래시 스토리지에 대해 본격적인 설명에 들어가기 전에 먼저 알아야 할 플래시 메모리의 몇 가지 기본적 속성을 알아보자. 플래시의 빠른 속도, 전력 및 공간 효율성 그리고 안정성은 익히 잘 알려져 있는 사실이기에 장점보다는 먼저 단점을 짚어보고, 기계식 디스크와는 어떤 차이가 있는지 알아보겠다.

1. 플래시 셀의 수명
플래시 메모리는 디지털 카메라를 위해 고안된 비휘발성 반도체 저장장치다. 이에 플래시 메모리 셀들은 대부분의 기업 애플리케이션과는 달리 빈번하게 쓰기 작업을 집중 반복할 수 있도록 만들어져 있지 않다. 따라서 플래시 메모리의 해결 과제 중 하나는 플래시 셀들이 삭제와 프로그래밍이 반복될 때마다 마모된다는 점이다. 플래시 기기의 예상 수명은 프로그램/삭제(PE) 주기로 표현된다. 종이를 예로 들어보면 플래시의 마모를 쉽게 이해할 수 있다. 종이의 한 곳에 내용을 썼다 지우기를 1000번 반복하면 그 종이가 닳아서 찢어지는 것처럼 플래시 셀도 마찬가지다.

2. 플래시의 다양한 형태
일반적으로 비트 당 비용이 낮을수록 플래시 기기가 보장하는 프로그램/삭제 주기의 수가 낮아지게 된다. 모든 플래시 셀의 기본적인 구조는 거의 동일하지만 성능과 다른 특성의 제작 공정 방법은 상당히 달라질 수 있으며, 이는 플래시 스토리지 시스템의 비용, 성능 및 안정성에 지대한 영향을 미칠 수 있다.

3. 플래시의 오류와 기계식 디스크의 오류 차이
어떻게 플래시가 마모되는가의 개념을 비트 오류율로 연장을 해보면 플래시 메모리의 오류는 기계식 디스크의 오류와는 차이가 있다는 사실을 알 수 있다. 또 HDD의 복구할 수 없는 비트 오류율은 쓰기 횟수에 따라 비교적 일정한 반면 플래시는 쓰여진 TB 수에 따라 오류율이 기하급수적으로 증가하게 된다. 즉 일정 기간의 쓰기 작업 동안 플래시 솔루션은 비트오류율이 훨씬 낮지만 그 이후에는 현격하게 증가한다. 이렇듯 근본적으로 다른 오류 형태는 HDD에는 적합하지 않은 플래시만의 고유한 오류 수정 계획이 필요함을 의미한다.

4. 플래시의 쓰기는 비싸지만 읽기는 무료
기계식 디스크와는 달리 플래시의 읽기와 쓰기는 상당히 비대칭적이어서 읽기 속도와 비교해 삭제와 쓰기 속도는 상대적으로 느린 편이다. 결과적으로 플래시를 중심으로 시스템을 설계할 때는 이러한 비대칭이 고성능을 보장하기 위해 고려해야 할 핵심 요소다. 쓰기 횟수를 극소화해야 하지만 읽기 횟수는 전혀 신경을 쓰지 않아도 되기 때문이다.

기업 애플리케이션에 적용 위한 판단 요소
먼저 기업의 애플리케이션 작업 부하에 플래시 스토리지를 적용할 수 있을 것인지에 대한 판단이 필요하다. 기업의 작업 부하를 이해하는 것은 올 플래시 스토리지에 대한 투자를 통해 어떠한 개선 효과를 얻을 수 있을지 판단하는데 도움이 되기 때문이다.

1. 애플리케이션들은 대기 시간에 얼마나 민감한가?
애플리케이션이 수십만 분의 1초의 대기 시간을 허용하면 플래시 솔루션이 별로 필요 없을 것이다. 반면 애플리케이션이 예측 가능하고 낮은 대기 시간 유지를 원한다면, 올 플래시 솔루션은 올바른 선택이 된다.

2. 액세스 패턴은 어떠한가?
가상 데스크톱 환경은 거의 쓰기 중심인 반면, 데이터베이스는 대체로 읽기 중심이다. 이러한 비율을 이해하면 올 플래시에 관련된 보다 나은 스토리지 결정을 내릴 수 있게 된다. 일반적으로 플래시는 읽기 속도가 상당히 빠르기 때문에 읽기 중심의 애플리케이션에 사용하는 경우, 대기 시간과 관련해 보다 많은 혜택을 얻을 수 있다. 쓰기 중심 애플리케이션에 혜택이 전혀 없다는 얘기가 아니라 읽기 중심 애플리케이션만큼 그 효과가 획기적이지 않다는 말이다.

3. 요구되는 초당 입/출력 수(IOPS)는 어떠한가?
스토리지 공급업체들이 1백만 IOPS를 제공한다고 주장하는데 이는 실제 업무환경에 적용했을 때의 성능과 거리가 있다. 실제 업무환경에 필요한 성능을 보다 면밀히 검토해야 한다.

4. 일반적인 블록 크기는 어떠한가?
대부분의 벤치마크 블록 크기는 4KB다. 주요 이유는 현대의 하드디스크 드라이브는 4096B의 섹터로 나뉘어져서 여러 가지 하드디스크 드라이브 문제를 해결하기 때문이다. 이는 작은 파일들에는 덜 효율적이지만 대형 파일에 대해서는 더 효율적인 스토리지를 제공한다.

다시 말해 애플리케이션이 수행하는 작업과는 관련이 전혀 없으며, 플래시 아키텍처와도 전혀 상관이 없다. 그러나 흥미롭게도 많은 플래시 스토리지들이 4KB 블록 크기를 사용하고 있다. 설계자들은 몇 년 전에 기계식 디스크에 도입된 4KB 블록에 사용자들이 자신들의 아키텍처를 최적화했다고 생각하기 때문이다. 이 사이즈에 최적화하기 위해 애플리케이션을 이미 재구성하지 않은 이상, 벤치마크인 4KB 블록 크기는 작업 부하와는 무관하다는 사실을 염두에 둬야 한다.

블록 크기를 알아야 하는 가장 중요한 이유는 블록 정렬 문제 때문이다. 플래시 스토리지의 블록 사이즈가 크면 그 블록들은 애플리케이션 블록들과 적절하게 정렬이 되지 않을 수 있으며, 이 때문에 성능이 감소될 수 있다. 실제로 블록 크기는 실행하는 애플리케이션에 따라 상당한 차이를 보인다.

데이터 보호 방법
플래시 메모리는 그 성능으로 인해 높은 수준의 데이터 보호와 성능이 함께 요구되는 티어1 애플리케이션에서 대부분 사용된다. 그러나 앞서 언급한 바와 같이 플래시 구축에는 여러 가지 방법이 있으며, 데이터 보호 제공 능력은 그야말로 천차만별이다. 따라서 플래시 기반의 데이터 보호 기능에 대해 자세히 파악해야 한다.

1. RAID 종류
먼저 짚어볼 부분은 RAID 아키텍처는 플래시가 아니라 기계식 드라이브를 위해 고안됐다는 점이다. 그래서 플래시에 RAID 수준들을 직접 적용하려면 일반적인 RAID에 대한 간단한 이해보다는 좀 더 깊은 수준의 이해가 필요하다.

서버 플래시 카드는 서버에 직접 삽입돼야 하기 때문에 미러링을 통한 데이터 보호만 제공할 수 있다. 이는 만일 플래시 카드가 오작동하는 경우 그 안의 데이터는 별도의 카드에 저장돼 있어야 하고 IO 트래픽이 그 다른 카드로 경로를 재설정 할 필요가 있음을 의미한다. 이로 인한 가장 큰 문제는 비용이다. 위와 같은 아키텍처는 비트당 비용이 두 배가 요구된다.

공유 스토리지 아키텍처는 미러링, RAID 5 및 RAID 6을 포함하는 다양한 RAID 형식이 이용되고 있다. RAID 유형의 결정은 리빌딩 시간, 애플리케이션 읽기/쓰기 조합, 성능 요구사항 및 필요 사용 가능 용량 등 많은 요소에 달려 있고, 데이터 보호를 위한 방안으로 RAID 5는 상당한 위험이 따르기 때문에 대부분의 경우 미러링이나 RAID 6만이 유일한 옵션으로 남게 된다.

기계식 디스크와 플래시의 중대한 차이는 RAID 재구축이 실행되는 방법이다. 기계식 디스크/전통적인 RAID에서는 RAID가 단일 핫 스페어에 설정돼 다-대-일로 복구되는 구조다. 이와 달리 플래시에서는 재구축되는 모든 드라이브의 남은 용량을 사용해 다-대-다의 구성으로 리빌딩을 실행하도록 RAID를 설계할 수 있다.

또한 기계식 디스크 스토리지에서 주요 쟁점은 드라이브 장애가 발생하면 리빌딩하는데 얼마나 시간이 걸리는가 하는 것이다. 이는 다른 드라이브에 장애가 발생하는 경우 리빌딩하고 있는 시점이 장애가 발생하는 시점이 될 수 있기 때문이다. 그러나 플래시는 HDD보다 획기적으로 향상된 성능을 제공하며, 이로 인해 플래시 스토리지는 리빌딩 시간이 실질적으로 단축되며, 이로 인해 스토리지 성능에 미치는 영향도 크지 않다.

2. RAID 오버헤드
하나의 RAID 스트라이프에서 패리티 비트를 구현하면 스토리지 공간이 소모된다. 패리티 비트들이 얼마나 추가적인 공간을 소모하느냐를 이해하는 것은 올 플래시 스토리지를 위한 전체적인 비트당 비용을 이해하기 위해 중요한 부분이다. 이는 소모된 물리적 스토리지의 백분율로 나타낼 수 있다.

3. 핫 스페어에 대한 고민
플래시 스토리지 시스템의 핫 스페어가 구동되면, 비용 부분이나 용량에서 많은 손해를 보게 된다. 플래시 스토리지 시스템에서 요구 되는 핫 스페어는 논리적 구성이 필요하고, 이로 인해 공간 및 비용을 절감할 수 있다.

4. 드라이브 장애 최대 수용
모든 플래시 스토리지 시스템이 공유 스토리지 솔루션이고 SSD나 플래시 카드 스토리지를 포함하고 있는 경우, 동시에 몇 개의 SSD/카드에서 장애가 발생한 후에 데이터 손실이 시작되는가를 이해하는 것이 중요한 선택 기준이 돼야 한다. 듀얼 패리티 시스템은 하나의 스토리지에서 적어도 두 개의 드라이브 장애를 지원할 수 있다.

5. 수신 데이터 보호 방법
IO 요청이 스토리지에 전달되었을 때 시스템에서 캐시 장애가 발생하는 경우 어떤 일이 일어나는가를 이해하는 것이 필요하며, 해당 데이터는 스토리지가 응답할 때까지 어디에 저장이 되어 손실이 되지 않도록 어떻게 보호되는지 알아야 한다.

6. 스냅샷과 복제
1차 공유 스토리지의 중요한 기능 중 하나는 재해 복구를 위해 데이터의 스냅샷을 수행하고 다른 사이트로 복제를 하는 기능이다. 플래시 메모리에서는 이러한 절차시 보다 높은 성능을 기대할 수 있다. 특히 시스템이 복제/메타데이터를 사용하는 경우에는 더욱 그러한데, 스냅샷을 만드는 것은 실제로 다시 데이터 쓰기 작업을 수행하는 것이 아니라 단순히 메타데이터의 조합을 통한 동일한 세트를 생성하는 것이기 때문이다.

플래시 스토리지 솔루션에 복제가 포함돼 있지 않으면 스토리지 공급자와는 상관없이 스토리지간 복제를 허용하는 제3자 옵션을 고려할 수 있다. 이 경우 라이선스에 추가 비용이 발생할 수 있지만 기업 환경이 요구하는 경우 문제 해결 방안이 될 수 있다.

데이터 축소 방법
플래시 스토리지와 관련해 현재 여러 가지 데이터 축소 방법이 등장하고 있다. 하지만 데이터 축소는 스토리지의 성능, 효율성, 비트당 비용에 실질적인 영향을 미치므로 단순히 체크만 하고 넘어가서는 안 되는 사항이다.

여러 벤더의 시스템에는 일부 데이터 축소 기술들만 포함돼 있는데, 이들 기술이 어디서 비롯됐는지를 아는 것이 중요하다. 플래시 메모리용으로 구축되지 않았다면 시스템의 성능에 실질적인 영향을 줄 수 있기 때문이다. 또한 일부 플래시 어플라이언스들은 데이터 축소를 전혀 제공하지 않으며, 자체 기술이 아니라 OEM으로 제공되는 기술로 운영 시 심각한 장애를 유발할 수도 있다.

1. 인라인 vs 포스트 중복제거
일부 벤더는 데이터가 스토리지에 도착하는 즉시 데이터를 중복제거하고 다른 벤더는 데이터를 처음에는 디스크 및/또는 플래시에 놓고 추후 데이터 중복제거 프로세싱을 한다. 레거시 디스크를 사용하던 시절에는 사용 가능한 디스크와 CPU 성능으로 데이터 축소를 시행하려면 시간이 오래 걸렸기 때문에 포스트 프로세스가 표준처럼 활용됐다.

반면 플래시 스토리지에서는 플래시의 성능과 이를 위해 특별히 설계된 아키텍처 덕분에 인라인 중복제거가 가능해졌다. 인라인 방식이 제공하는 두 가지 중요한 혜택을 이해하는게 중요하며, 플래시의 효과적인 용량 절감을 통한 비용 절감과 플래시와 충돌할 수 있는 쓰기 IO 제거로 쓰기 작업은 불필요 부분이다.

2. 축소
데이터 축소 기술은 어떤 크기에 따라 데이터를 분석하느냐에 따라 달라진다. 데이터 분석에 더 작은 크기를 이용할수록 중복 제거와 혜택은 더 커지지만 크기가 작으면 그 처리과정에서 발생하는 더 많은 메타데이터를 관리해야 한다. 데이터 레이아웃은 또한 정렬과 직접적으로 연관된다.

전통적인 스토리지에서 가상 머신을 잘못 정렬해 본 경험이 있는 사용자라면, 이것이 무슨 의미인지 정확히 알 것이다. 모든 레이어(스토리지, 하이퍼바이저 VM, FS, 애플리케이션)가 제대로 정렬돼 있지 않다면 중복 요소 검색이 무척 어려워진다. 현재 대부분의 데이터 축소와 씬 프로비저닝 기술은 4K 크기 이상의 덩어리에 대해 수행된다.

3. 성능 영향
전통적인 디스크 스토리지 중복제거는 매우 느려서 실 사용 환경에서 수행하기는 거의 불가능했다. 사실상 플래시를 사용해도 설계가 제대로 되지 않았거나 개조를 통해 데이터 축소를 나중에 구현했다든가 하면 동일한 문제가 발생한다. 하지만 자체 기술을 가진 제조사는 성능에 전혀 영향을 주지 않는다.

가용성 및 안정성 요소
액티브/액티브 혹은 액티브/패시브 등 가용성 수준은 대부분 스토리지 시스템의 아키텍처에 달려있다. 전형적인 스토리지로 구축이 됐다면 제품을 구매하기 전에 컨트롤러 장애의 결과는 무엇이며 구성에 대해서 확인해 봐야 한다.

1. 액티브/액티브 IO 처리
업무에 중요한 애플리케이션들은 일반적으로 가동이 중단되서는 안 된다. 그렇기 때문에 액티브/액티브 구성이 이러한 환경에서는 최고의 해결책이다. 이러한 애플리케이션들은 대체적으로 성능에 가장 민감하기 때문에 올 플래시 스토리지를 고려하는 주요한 동기가 되곤 한다. 액티브/액티브 구성에서는 두 컨트롤러를 연결하는데 사용되는 포트들의 프로토콜과 대역폭이 모든 IO 트래픽을 장애가 발생한 컨트롤러나 컨트롤러 컴포넌트에서 다른 컨트롤러로 전송할 수 있도록 한다. 페일오버 속도는 애플리케이션을 가동하려고 하는 IO에 장애 조치가 얼마나 많은 지장을 주는가를 결정한다.

2. 무중단 업그레이드
플래시 시스템을 오프라인으로 만들지 않고 컨트롤러나 컴포넌트를 교체하는 것이 가능한지 확인이 필요하다. 또 벤더가 스토리지의 운영을 중단하지 않고 컨트롤러의 소프트웨어를 업그레이드할 수 있는지의 여부와 소요되는 작업시간 확인도 필요하다.

3. 무상태(Stateless) 컨트롤러
벤더가 컨트롤러, 캐시 및 플래시 스토리지를 하나의 인클로저(enclosure)에 통합을 하는 경우는 ‘무상태 컨트롤러’ 환경이 아니다. 무상태 컨트롤러는 컨트롤러에 장애가 발생해 이를 대체할 필요가 있을 때, 구성정보 등 컨트롤러에 저장돼 있지 않아 컨트롤러에서 스토리지를 분리하면 플래시 스토리지의 운영을 중단하지 않고 컨트롤러를 교환할 수 있게 된다.

4. 안정성 및 편의성
드라이브나 컴포넌트에 장애가 생기면 컴포넌트를 교체하는 것이 얼마나 어려운지에 대한 확인이 필요하다. 일부 플래시 스토리지 솔루션은 장애가 발생한 장치를 교체하려면 랙에서 장비를 분리하고 섀시를 열어야 한다. 이는 서버에 위치하든지 전용 스토리지 어플라이언스에 위치하든지에 상관없이 모든 PCIe 카드들에 해당되는 사항이다.

플래시, 차세대 스토리지 속도 대변
모든 스토리지 매체와 마찬가지로 플래시도 완벽한 매체는 아니다. 그러나 자기 회전 디스크나 그 이전에 나왔던 선형 테이프처럼 플래시는 차세대 스토리지 성능을 대변한다. 플래시 성능은 자기 회전 디스크보다 최소 몇 십 배 빠른 속도를 제공한다.

플래시를 기업의 인프라에 통합하면 성능 향상을 기대할 수 있다. 최종 사용자는 최고의 플래시 스토리지 시스템과 플래시 스토리지 시스템 벤더를 선택함에 있어, 벤더에 대한 것뿐 아니라 필요한 애플리케이션과 추가 성능이 필요한 부분에 있어서도 올바른 질문을 할 수 있어야 한다.

플래시 시장은 이제 막 싹이 트고 있는 단계로, 여러 플래시 솔루션들의 차이를 객관적으로 비교하는데 사용할 만한 벤치마크나 인증이 거의 없다. 위에서 제시한 기준들은 플래시가 어디서 어떻게 기업의 인프라의 성능을 향상시킬 수 있는가를 사용자가 파악할 수 있도록 도움을 주어 궁극적으로 비즈니스 경쟁 우위를 점유할 수 있도록 해줄 것으로 생각한다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.