구글, 클라우드 TPU 공개…머신 러닝 학습 시간 단축

최대 180Tflops 부동 소수점 연산 성능…GCE 통해 활용 가능

구글이 17일(현지시간) 열린 구글 개발자 컨퍼런스 ‘구글 I/O 2017’에서 ‘클라우드 TPU(Tensor Processing Unit)’를 공개했다.

지난해 구글은 자사 머신 러닝 알고리즘을 더 빠르고 효과적으로 작동할 수 있게 하는 1세대 TPU를 발표했다. TPU는 머신 러닝 모델을 빠르고 효율적으로 실행해 문장을 번역하거나 바둑에서 다음 수를 결정할 수 있도록 개발됐지만, 별도의 학습 과정을 거쳐야만 했다.

그러나 머신 러닝 모델 학습은 모델 실행보다 훨씬 까다로우며, 정확도를 높이기 위해 사용 가능한 최적의 CPU와 GPU에서 며칠 또는 몇 주에 걸쳐 컴퓨팅 작업을 처리해야만 했다. 이에 구글은 머신 러닝 모델의 실행과 학습이 모두 가능한 2세대 TPU인 ‘클라우드 TPU’를 개발·출시했다고 설명했다.

구글의 발표에 의하면 클라우드 TPU는 최대 180테라플롭스(Tflops)에 달하는 부동 소수점 연산 성능을 제공한다. 따로 사용하는 경우에도 뛰어난 성능을 보이지만 함께 사용하는 경우 더 좋은 성능을 보이도록 설계됐으며, 각 TPU에는 맞춤 고속 네트워크가 포함돼 있어 ‘TPU 팟(TPU pod)’이라고 하는 머신 러닝 슈퍼컴퓨터를 구축할 수 있다. TPU 팟은 차세대 TPU 64개를 갖추고 있으며, 최대 11.5페타플롭스의 연산 성능을 제공한다.

구글은 TPU 팟 사용을 통해 학습 시간에 큰 개선이 있는 것을 확인했다. 구글의 대규모 번역 모델을 학습시키는데 기존 최고급 상용 GPU 32개를 사용했을 때는 하루가 꼬박 걸렸지만 TPU 팟의 1/8만 사용해도 같은 정확도로 학습시키는데 반나절 밖에 걸리지 않았다는 설명이다.

구글은 클라우드 TPU를 구글 컴퓨트 엔진(Google Compute Engine)에 도입해 기업들과 개발자들이 이를 활용할 수 있도록 할 예정이다. 구글 컴퓨트 엔진에 새로운 TPU를 장착한 클라우드 TPU는 형태와 규모에 구애받지 않고 모든 가상 머신에 연결해 인텔의 스카이레이크(Skylake) CPU, 엔비디아(NVIDIA) GPU 같이 다른 유형의 하드웨어와 함께 사용할 수 있다.

윤현기 기자 다른기사 보기