AI의 시작과 끝 ‘검색’과 ‘데이터’ (1)
상태바
AI의 시작과 끝 ‘검색’과 ‘데이터’ (1)
  • 윤현기 기자
  • 승인 2017.08.08 08:55
  • 댓글 0
이 기사를 공유합니다

AI 검색 능력 확대 위한 양질 데이터 필수…맹목적 접근은 자제해야

지난해 바둑 인공지능(AI) ‘알파고’로 시작된 AI 열풍은 IT업계뿐만 아니라 산업 전반에 깊숙이 파고들었다. 이제는 어떤 서비스가 출시되더라도 ‘인공지능’ 또는 ‘AI’가 붙지 않으면 상대적으로 시대에 뒤처진 느낌이 들 정도다. 이에 많은 기업들이 너도나도 AI를 외치며 AI 사업을 하거나 AI를 사업에 도입하려 하고 있다. AI가 우리 시대를 바꿀 혁신이 되리라는 의견에는 이견들이 없다. 하지만 AI가 무엇인지 정확히 이해하지 못한 채 사업을 시작한다면 좋은 결실을 얻지 못하리라는 의견에도 이견들이 없다. AI를 위해 꼭 필요한 것은 무엇인지 알아본다.  <편집자>

 

바둑 AI ‘알파고’가 보여준 힘은 대단했다. 지난해 이세돌 9단을 꺾고, 올해 커제 9단까지 꺾으면서 바둑계를 평정했다. 그리고 유유히 바둑계를 떠났다. 더 이상 적수가 없었기 때문이다. 이제 알파고는 의료와 과학 등 새로운 분야에서 또 다른 도전을 준비하고 있다.

알파고로 시작된 AI의 열기는 전 세계로 빠르게 번졌다. 그동안 사람들이 갖고 있던 AI에 대한 인식이 새롭게 바뀌었다. AI를 통해 인간이 해결할 수 없었던 문제들도 해결이 가능할 것으로 전망됐다. 이제 새로운 서비스에 ‘인공지능’ 또는 ‘AI’라는 표현이 들어가지 않으면 상대적으로 시대에 뒤처진 느낌이 들 정도다. 이처럼 뜨거운 AI의 열풍과 함께 기업들도 신성장동력 또는 차세대 비전으로 AI에 주목하고 있다. AI 사업을 시작하거나 AI를 사업에 도입하는 경우도 점차 늘어나고 있다. 그렇다면 AI는 만능 해결사일까? 어떻게 해야 기업 비즈니스에서 알파고와 같은 성과를 거둘 수 있는 것일까? 딥 러닝(Deep Learning)이나 머신 러닝(Machine Learning) 등 용어마저 어려운 것들을 해야 하는 것일까? 이를 알기 위해서는 AI의 기본적인 원리부터 이해해야 할 필요가 있다.

▲ 알파고와의 대국에서 패한 후 돌을 던진 커제 9단(자료: 구글코리아)

AI의 기본은 검색

단도직입적으로 말하자면 AI의 기본은 검색(Search)이다. 최근 AI의 사례로 가장 많이 언급되고 있는 챗봇(Chat bot)을 보면 사용자의 질문에 맞게 스스로 답하고 있는 것처럼 보이지만, 사실은 사용자의 질문 내용을 검색해서 의도에 가장 부합해 보이는 답변을 찾아내는 것뿐이다. 인공지능이라 해서 결코 인간처럼 지성을 통해 사용자의 질문을 분석하고 답변을 내놓는 것이 아니라는 말이다.

우선 사람과 컴퓨터는 기본적으로 이해하는 언어가 다르다는 점에 착안할 필요가 있다. 사람은 자연어를 사용한다. 국가와 민족에 따라 쓰이는 언어가 다르지만, 의사소통을 위해 사용되는 자연어가 기본이다. 그러나 컴퓨터는 전기적 신호에 의한 0과 1로 이뤄진 기계어만 이해하고 처리할 수 있을 뿐이다. 당연히 인간과 컴퓨터의 언어는 상호작용하기 어렵다.

인간은 컴퓨터에게 일을 시켜야 했다. 그러기 위해서는 컴퓨터가 알아들을 수 있는 언어를 입력해야 했다. 이를 위해 등장한 것이 어셈블리와 같은 초기 프로그래밍 언어들이다. 사용자가 이를 이용해 컴퓨터에게 명령을 하면, 컴퓨터는 그제야 명령을 이해하고 실행한다.

이는 예나 지금이나 크게 달라진 바가 없다. 컴퓨터가 아무리 발전했어도 사용자의 명령을 기계어로 이해해야 실행이 가능하다. 다만 사용자가 좀 더 쉽고 편리하게 명령을 내릴 수 있도록 방법들이 발전했을 뿐이다.

그 중 대표적인 것이 인간의 언어를 컴퓨터가 직접 이해하도록 한 것이다. ‘강(江)’이라는 단어를 프로그래밍 언어가 아닌 말로 입력하면 컴퓨터가 이를 이해하고 ‘강(江)’과 관련된 사진이나 영상, 음악 등을 찾아내 보여줄 수 있도록 했다. 이것이 바로 최근 전 세계를 강타하고 있는 ‘AI’다.
 

검색 기술의 핵심 ‘자연어처리’

인간의 자연어는 배우기 어렵다. 어린 아이가 태어나서 글과 말을 익히기까지 수년이 걸린다. 이것도 일상적인 생활에서만 통용되는 자연어에 한정될 뿐이며, 좀 더 전문적이고 체계적인 언어를 익히기까지에는 족히 십여 년은 필요하다. 사람도 이처럼 자연어를 익히기 어려운데, 기계어밖에 알아듣지 못하는 컴퓨터는 오죽할까. 그럼에도 인류는 컴퓨터가 사람의 자연어를 익힐 수 있도록 하는 기술을 개발해냈다. 그것이 바로 ‘자연어처리(NLP: Natural Language Processing)’ 기술이다.

자연어처리 기술은 인간의 일상 언어를 형태 분석, 의미 분석 등의 과정을 거쳐 컴퓨터가 이를 이해하고 처리할 수 있도록 변환하는 기술을 말한다. 그리고 이와 함께 ‘자연어생성(NLG: Natural Language Generation)’ 기술도 함께 발전했는데, 이는 NLP와 반대로 컴퓨터가 처리한 결과물을 인간이 이해할 수 있게 텍스트, 음성 등으로 바꿔주는 기술이다. 즉, 인간의 언어를 컴퓨터가 인식할 수 있도록 변환시키고, 또 컴퓨터가 나타내고자 하는 바를 인간의 언어로 변환해주는 것이 자연어처리/생성 기술인 것이다.

개념을 설명하기는 쉽지만, 이를 실제로 구현하는 것은 결코 쉬운 일이 아니다. 인간은 중의적인 의미를 지닌 ‘사과’나 ‘배’, ‘밤’ 등을 문맥에 따라 구분하지만, 컴퓨터는 ‘사과’가 먹는 사과인지, 미안해서 하는 사과인지 일일이 구별하기 쉽지 않다.

대명사 처리도 컴퓨터 입장에서는 골칫거리다. 인간은 문맥에서 ‘저것’, ‘그들’이 무엇을 지칭하는지 분간할 수 있지만, 컴퓨터는 이를 가려내는데 많은 처리 과정을 거쳐야 한다.

띄어쓰기 문제도 마찬가지다. 국어 교육과정에서 대표적으로 언급되는 ‘아버지가 방에 들어가신다’와 ‘아버지 가방에 들어가신다’ 역시 인간은 어떤 것이 맞고 어떤 것이 잘못됐는지 쉽사리 파악할 수 있지만, 컴퓨터는 두 문장 모두 단어들로는 이상이 없기 때문에 판별해내지 못한다. 만약 이들을 정확히 구별해서 그에 맞는 결과를 내놓는다면 사용자 입장에서 ‘똑똑한 AI’가 될 것이고, 제대로 구별하지 못한다면 사용자의 입에서는 ‘무슨 AI가 이래?’라는 불평이 나오게 될 것이다.

▲ 포털 서비스에서 제공하는 챗봇을 이용한 치킨 주문 화면. 서비스 목적으로 구성됐기에 답변을 할 수 있는 질문으로만 구성돼 있다.

AI는 뛰어난 검색 엔진

자연어처리 기술은 생각보다 깊은 수준의 언어 실력을 필요로 한다. 앞서 예로 들었던 ‘아버지가 방에 들어가신다’와 ‘아버지 가방에 들어가신다’를 컴퓨터의 입장에서 구분하려면 문장 구조에 대한 분석이 먼저 시행돼야 하며, 이를 위해 컴퓨터는 문장을 최소 의미 단위인 형태소로 잘게 나눈다. 그 결과 문장 내 품사들이 결정되는데, 그동안 검색은 명사 단위로 주로 이뤄졌다. 예시 문장에서는 ‘아버지’와 ‘방’이 명사로 분류되며, 일반적인 경우 이들을 검색해 결과를 보여주게 된다. 가끔 검색 결과에 ‘가방’이 등장하기도 하는데 이는 형태소 분석부터 제대로 이뤄지지 않았음을 방증하며, 이후 이어질 분석에서도 제대로 된 결과를 보여주지 못할 확률이 크다.

현재 업계에서는 자연어처리에서 형태소 분석이 거의 완성된 기술로 평가되고 있다. 정확도가 아무리 못해도 97~98% 이상은 된다는 설명이다. 그러나 형태소 분석만으로는 컴퓨터가 인간의 언어를 완벽히 이해할 수 있는 것은 아니다. 특히 인간의 말에 감정이 담길 경우에는 더더욱 그렇다. 누군가가 ‘잘 했어’라고 했을 때 정말 잘 해서 칭찬으로 하는 말인지 아니면 일부러 비꼬기 위해 한 말인지 인간은 말투 등을 통해 쉽사리 파악할 수 있다. 그러나 컴퓨터는 이를 형태소 분석만으로 확인할 수 없으며, 이후 구문 분석과 담화 분석 등 다양한 분석 방법들을 적용해 언어를 분석하게 된다. 이를 통해 컴퓨터는 인간의 언어를 이해하고, 그에 맞는 최적의 결과를 제시하기 위해 적절한 키워드를 활용한 검색 결과를 보여주는 것이다.

이를 종합해보면 왜 검색 기술 또는 검색 엔진을 보유한 업체들이 AI 분야를 선도하고 있는지가 해명된다. 글로벌에서는 알파고를 만들어냈던 구글이, 국내에서는 네이버와 카카오가 AI 기술을 상용화하며 앞서나가고 있다. 이에 더해 다이퀘스트, 와이즈넛, 코난테크놀로지 등 자연어처리 기술을 보유한 검색 솔루션 기업들도 AI 사업에서 두각을 나타내고 있다.

특히 한국어는 영어 등과 달리 어순이 다르고, 특정 명사만으로도 의미 전달이 되는 경우가 있어 자연어처리 기술로 다루기에는 난이도가 높은 편이다. 그로 인해 전 세계적으로 구글이 영향력을 발휘하고 있는 것과 달리, 한국어 처리에 있어서는 국내 기업들이 강세를 보이고 있다.
 

딥 러닝의 등장…데이터 중요성 부각

최근 자연어처리 분야는 ‘딥 러닝’이라는 머신 러닝 알고리즘이 등장하면서 일대 전환점을 맞이했다. 컴퓨터를 학습시키는데 있어 가장 기초적인 방안인 ‘지도 학습’을 넘어 일일이 가르치지 않아도 스스로 훈련하는 ‘비지도 학습’까지 이뤄지도록 했기 때문이다.

지도 학습은 초등학생을 가르치듯이 문제에 대한 직접적인 답을 알려주는 것을 의미한다. ‘토끼’를 알려주기 위해서 직접 토끼나 토끼 사진을 보여주는 것이 지도 학습의 예시이며, 자연어처리에서는 형태소 분석을 위한 사전을 구성하는 것도 이에 해당한다.

비지도 학습은 답을 알려주는 선생이 없이 컴퓨터 스스로 주어진 데이터들을 통해 학습하는 것을 뜻한다. 지도 학습을 통해 구축된 지식을 기반으로 그와 연관된 것들을 이용해 컴퓨터가 스스로 분류할 수 있도록 반복적으로 학습하며, 이후 시행착오를 거쳐 가장 보상이 높게 나타날 수 있는 방법을 찾도록 하는 강화학습으로 이어진다. 이는 언어의 정해진 뜻만이 아닌, 문맥 등을 통해서 확인해야 하는 중의적인 의미의 단어나 문장에 담긴 감정 등을 찾아내는데 큰 도움이 된다.

딥 러닝 알고리즘이 등장하기 이전까지 AI의 학습은 대부분 지도 학습으로 이뤄졌다. 답변이 정확하게 존재하는 질문에 대해서는 문제가 없지만, 정확한 답변이 존재하지 않고 추론을 필요로 할 경우에는 이상한 답변을 내놓기 십상이었다. 그러나 딥 러닝이 등장하고 이를 AI 학습에 이용할 수 있게 되면서 AI의 발전은 빠르게 진행됐다. 기본적으로 정확한 답변을 내려 하면서도, 정확한 답변이 없을 경우 분류된 답변 중 가장 유사성이 높은 것을 내놓을 수 있기 때문이다. 마치 사람이 할 수 있는 답변과 유사할수록 AI의 성능이 높다고 인정받을 수 있다.

가령 오후 12시 무렵 누군가가 ‘밥’이라고 말한다면 인간은 이를 “식사하러 가자”는 의미로 이해하고 “무엇을 먹을까?”로 대답할 수 있다. 그러나 컴퓨터는 ‘밥’이라는 의미를 제대로 이해하지 못할 수 있으며, 이 경우 ‘밥은 맛있다’ 또는 ‘밥은 쌀로 만든다’ 등의 답변을 내놓을 수 있다. 즉, 답변 자체가 잘못된 것은 아니지만, 질문자의 의도에 부합하지 않은 답변을 하게 된다.

여기서 학습 데이터의 중요성이 부각된다. 학습에 필요한 양질의 데이터를 얼마나 많이 보유하고 있는가가 검색, 즉 AI의 성패를 결정하기 때문이다. 좋은 자료로 많이 학습한 AI일수록 인간의 질문에 대해 정확도 높은 답변을 내놓을 확률이 높다.

강락근 다이퀘스트 대표는 “최근 AI 활용 사례로 챗봇이 많이 언급되고 있다. 많은 사람들이 챗봇을 질문에 대한 답변을 찾아내는 것으로 단순하게 생각하지만, 주제에 따라 보이지 않는 곳에서 동작하는 시스템은 엄청나게 커질 수 있다. 바다에 떠 있는 빙산에 비유할 수 있는데, 실제로 사용자가 체감하는 부분은 물 위에 드러난 빙산의 일각에 불과하다”고 강조했다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.