KBA_9032

구글 딥마인드(Google DeepMind) 인공지능(AI, Artificial Intelligence) 알파고(AlphaGo)와 한국 프로바둑기사 이세돌 9단과 대국이 확정됐다.

구글의 인공지능 자회사 구글 딥마인드(Google DeepMind) CEO 데미스 하사비스(Demis Hassabis)는 2016년 3월 9일 자사의 인공지능 바둑 프로그램 알파고(AlphaGo)가 한국 프로 바둑기사 이세돌 9단과 서울에서 바둑 대국을 펼친다고 밝혔다. 

1997년 IBM의 슈퍼컴퓨터 딥블루(Deep Blue)가 세계 체스 챔피언 게리 카스파로프(Garry Kasparov)를 꺾었지만, 바둑은 여전히 컴퓨터가 사람을 이길 수 없는 영역으로 통해왔다는 점에서 알파고의 승리 여부가 주목 받고 있다. 

알파고는 바둑을 마스터한 최초의 인공지능 프로그램으로, 딥러닝 신경망을 통하여 마치 인간처럼 게임을 배우며, 그 사용이 단순히 바둑에만 국한되는 것이 아니라 모바일 애플리케이션과 무인자동차, 로봇 등에 활용될 가능성이 높다. 

알파고와 이세돌 9단의 대국은 12억원의 상금을 놓고 2016년 3월 9일에 시작해 10일, 12일, 13일, 15일 다섯 차례 진행되며, 모든 대국이 유튜브(YouTube)를 통해 실시간 생중계될 예정이다. 다만, 대국 장소와 방식, 방송을 통한 중계 등 세부 사항은 2016년 2월 중 추가 발표하기로 했다. 
 
알파고는 이세돌 9단과의 대결에 앞서 중국 출신 유럽 바둑 챔피언 판후이(Fan Hui) 2단을 5:0으로 5전 전승을 거둔 바 있다. 

알파고의 딥러닝 알고리즘은 2016년 1월 28일자의 네이처(Nature)지에 논문으로 발표됐다. 알파고가 사용한 것은 바둑판의 위치를 판단하는 가치 네트워크(Value networks)와 어디를 두어야 할지를 선택하는 폴리쉬 네트워크(Policy networks)로 구성된 딥뉴럴네트워크(DNN, Deep Neural Networks)이다. 이 DNN을 학습시키는 방법에는 사람에 의한 지도학습(Supervised learning)과 데이터 기반의 비지도학습(Unsupervised learning)이 있다. 

그런데 이번에 알파고의 DNN은 전문 바둑기사들(human expert games)에 의한 지도학습과 스스로 바둑 게임(self-play)을 하면서 배우는 강화 학습(reinforcement learning)이라는 새로운 콤비(a novel combination)라는 방식으로 학습했다. 

DeepMind CEO DemisHassabis-01-300dpi

▲ 구글 딥마인드(DeepMind) CEO 데미스 하사비스(Demis Hassabis)

결국 사람에 의한 지도학습의 폴리쉬 네트워크(SL. policy network)로 먼저 학습을 하고 그 이후에 스스로 하는 강화학습 폴리쉬 네트워크(RL. policy network)를 통해 폴리쉬 네트워크(Policy networks)와 가치 네트워크(Value networks)를 구성한 것이다. 

그 결과 이 DNN은 스스로 바둑 게임을 하면서 수천 건의 게임을 시뮬레이션하는 몬테칼로 나무 서치 프로그램(Monte Carlo tree search programs)의 수준에 올랐다.

또한 몬테칼로 시뮬레이션과 가치 네트워크와 폴리쉬 네트워크를 합쳐 새로운 서치 알고리즘(algorithm)도 개발했다. 이 새로운 서치 알고리즘을 이용해, 알파고의 DNN은 다른 유사한 인공바둑프로램들을 대상으로 게임한 결과 승률이 99.8%에 달했으며, 결국 유럽 챔피언인 판후이(Fan Hui) 2단을 5:0으로 이길 수 있었다.

데미스 하사비스(Demis Hassabis) CEO는 "규칙은 간단할지 몰라도 사실 바둑은 굉장히 복잡한 게임이다. 돌을 놓는 위치에 있어 경우의 수가 우주에 있는 원자의 수보다 많으며, 체스와 비교할 때 경우의 수가 10의 100제곱 이상 많다"라며, “이러한 복잡성은 컴퓨터가 바둑을 두는 것을 아주 어렵게 만들었으며, 따라서 바둑을 인공지능을 연구하는 사람들에게 아주 매력적인 도전과제로 만들었다”고 말했다. 

http://www.itnews.or.kr/?p=17528

+ Recent posts