인공지능의 유쾌한 반란

딱딱한 코드에 웃음을 입히다. 인공지능을 재미있게 공부할 수 있는 블로그.

YouTube 자세히보기

인공지능(AI)/인공지능의 역사

게임 이론

오드리공주될뻔 2021. 5. 4. 19:04

이번 글에서는 게임이론에 대해서 알아보고, 인공지능에서 게임이론이 어떻게 활용되고 있는지 살펴보겠습니다. 이 분야는 우리의 현실과 밀접하게 관련이 있고, 노벨경제학상의 “단골손님”이기도 합니다. 지금도 연구가 계속되고 있는 분야이기도 합니다. 게임 이론은 사회 과학, 특히 경제학에서 활용되는 응용 수학의 한 분야이며, 생물학, 정치학, 컴퓨터 공학, 철학에서도 많이 사용됩니다.

 

우선 사전적 의미로 놀이로써 게임은 규칙을 정해 놓고 승부를 겨루는 것을 말합니다. 경제용어로써의 게임이란 용어도 있는데, 이는 참가자들이 상대방의 행동이나 반응을 고려하여 전략적으로 자신의 의사를 결정하는 상황을 말합니다.

 

두 용어는 전자는 즐거움을 주는 행위가 목적이고, 후자는 결과를 예측하는 시뮬레이션 목적으로 개념적으로 서로 다르지만, 상대방의 행동에 따라 나의 의사결정을 최적화해서 해야 하는 유사한 면도 있습니다. 즉, 둘 다 어떤 행동을 선택하기 전에 상대방 행동을 고려합니다. 현재까지의 행동과 앞으로 전개될 행동의 시나리오까지 예측해서 나의 현재 전략과 미래 전략을 세워야 합니다. 예를 들면 포커라는 카드 게임처럼.

포커 게임을 즐기는 동물들

 

위키백과의 정의를 보면, 게임(game)이란 효용 극대화를 추구하는 행위자들이 일정한 전략을 가지고 최고의 보상을 얻기 위해 벌이는 행위를 말합니다. 게임이론은 참가자들이 상호작용하면서 변화해 가는 상황을 이해하는 데 도움을 주고, 그 상호작용이 어떻게 전개될 것인지, 매 순간 어떻게 행동하는 것이 더 이득이 되는지를 수학적으로 분석해줍니다.

 

게임이론(game theory)은 경제용어로써의 게임에 관한 이론으로써, 이해가 대립되는 집단의 행동을 수학적으로 다룬 이론입니다. 게임 이론은 상호 의존적이고 이성적인 의사결정에 관한 수학적 이론입니다. 개인 또는 기업이 어떠한 행위를 했을 때, 그 결과가 게임에서와 같이 자신뿐만 아니라 다른 참가자의 행동에 의해서도 결정되는 상황에서, 자신의 최대 이익에 부합하는 행동을 추구한다는 수학적 이론을 연구합니다.

 

1944년 폰 노이만(John von Neumann)과 경제학자 오스카 모르겐슈테른 (Oskar Morgenstern)이 “게임 이론과 경제 행동(Theory of Games and Economic Behavior)”이라는 이름의 책(처음엔 논문으로 나오고, 점차 확장하여 책으로 만듦)을 출판했습니다. 이 책은 게임 이론에 관한 최초의 책이자 최초로 경제학에 게임 이론을 응용한 책으로, 게임 이론의 역사에 큰 획을 그으며 본격적인 연구가 시작되는 출발점이 되었습니다.  동시에 폰 노이만은 미니맥스 원리(최소극대화, 미니맥스 법)를 증명하여 게임 이론은 응용 수학 영역으로 명확히 자리를 잡았습니다. 그는 1928년 미니맥스 원리를 증명하고, 완벽한 정보를 가진 제로섬 게임에서 두 가지 모두에 대한 한 쌍의 전략이 존재함을 입증합니다. 각 플레이어의 최대 손실을 최소화는 전략을 최적이라고 합니다. 이를 좀 더 개선하고, 확장하여 이 책에도 그 내용을 담았습니다.

 

게임 이론과 경제 행동(Theory of Games and Economic Behavior) 책 제2판의 목차(1947년)

 

이후 1950년 프린스턴 대학교에 다녔던 22살의 존 내시(John Nash)는 "비협조적 게임(Non-Cooperative Games)" 이라는 박사학위 논문으로 다시 한 번 게임 이론에 한 획을 그었습니다. 존 내시는 그동안 주목받지 않던 비협조적 게임에서 제로섬 게임이 아닐 경우에도 참가자의 수와 상관없이 언제나 균형상태가 존재하다는 것을 증명했습니다. 이 균형에는 존 내시의 이름을 딴 내시 균형(Nash equilibrium)이란 이름이 붙여졌습니다. 존 내시이외에도 이 이론은 1950년대 이후 많은 학자들에 의해 광범위하게 연구되었으며, 여러 산업에 적용되었습니다.

 

게임 이론에서 게임의 유형(Type)은 협조/비협조, 대칭/비대칭, 제로섬/넌-제로섬(혹은 비제로섬), 동시/순차, 완전 정보/불완전 정보 등으로 분류될 수 있습니다. 개념이해를 위해서 게임이론의 예를 가지고 설명드리겠습니다.


게임 이론의 예로는 넌-제로섬 게임의 사례로 죄수의 딜레마나 제로섬게임의 치킨게임, 가위바위보 게임(무승부 제외) 등이 거론됩니다. (이외에도 사슴 사냥 게임, 세 명의 총잡이, 여행자의 딜레마 등의 여러가지 상황으로 게임 이론을 설명하고 있습니다.)


#1. 죄수의 딜레마

우선 죄수의 딜레마(Prisoner's Dilemma, PD)는 게임 이론의 대표적인 유명한 사례로, 2명이 참가하는 넌-제로섬(비제로섬 게임, non zero-sum game)의 일종입니다. 이 게임은 용의자의 딜레마 또는 수인의 번민(囚人의 煩悶)이라고도 부릅니다.

죄수의 딜레마 이미지

 

공범으로 의심되는 두 명의 용의자가 체포되었습니다. 격리되어있는 서로 다른 취조실로 불러 자백을 할 수 있는 기회를 줍니다. 즉, 서로의 상황을 전혀 모르는 겁니다. 이들에게 자백여부에 따라 다른 형별이 가해집니다. 

  • 둘 중 하나가 배신하여 죄를 자백하면 자백한 사람은 즉시 풀어주고 나머지 한 명이 10년을 복역해야 합니다.
  • 둘 모두 서로를 배신하여 죄를 자백하면 둘 모두 5년을 복역합니다.
  • 둘 모두 죄를 자백하지 않으면 둘 모두 6개월을 복역합니다.

 

이 내용을 한눈에 보기 좋게 정리하면 아래와 같습니다.

죄수 딜레마의 보상 행렬

여러분이 죄수이라면 어떤 선택을 하시겠습니까? 선택의 결과에 따라 곧바로 석방, 6개월 복역, 5년 복역, 10년 복역이 됩니다.

 

이 게임의 죄수는 각자의 이익을 위해서 이성적으로 행동, 즉 자신의 이익만을 최대화한다는 가정을 합니다. 그 결과는 상대방이 취하는 행동과 무관하게 자신이 자백하는 것이 이득이므로 둘 다 자백을 택하게 됩니다. 

  • 죄수A의 선택 : 죄수B가 침묵할 것으로 생각되는 경우 자백을 하는 것이 유리합니다. 죄수B가 자백할 것으로 생각되는 경우 자백이 유리합니다. 따라서 죄수A는 죄수B가 어떤 선택을 하든지 자백을 선택합니다.
  • 죄수B의 선택 : 죄수A와 동일한 상황이므로, 마찬가지로 죄수A가 어떤 선택을 하든지 자백이 유리합니다.

 

결국 사이좋게 둘다 5년의 징역을 살게 됩니다. 어떻게보면 정말 멍청한 짓이 되어 버린 것입니다.  각자가 최선의 이익을 보려는 행동으로 인해서 오히려 둘다 큰 손해를 봅니다. 여기서  침묵(협동)보다는 자백(배신)을 통해 더 많은 이익을 얻으므로 모든 참가자가 자백을 택하는 상태를 내쉬 균형(Nash equilibrium)이라고 합니다. 즉,  각 경기자가 상대방의 행동에 대응하여 자신에게 가장 유리한 전략을 선택함으로써 이루어지는 균형입니다. 경쟁자 대응에 따라 최선의 선택을 하면 서로가 자신의 선택을 바꾸지 않는 균형상태를 말합니다.

 

죄수의 딜레마는  '모두가 자신의 이익을 위해 노력하게 하면 자연스럽게 사회는 발전하게 된다'라는 기존의 절대적 진리였던 애덤 스미스의 자유주의 시장 경제 이론과 대치되어 상당한 논란을 불러 일으켰습니다. 

죄수의 딜레마 게임은 여러가지 버전으로 확장될 수 있습니다.  두 죄수가 서로 의사소통을 할 수 있는 경우라든지, 다시 그 죄수들이 똑같은 상황을 마주하게되어 반복되는 죄수의 딜레마(Iterated Prisoner's Dilemma)로 최적의 선택을 찾는 문제로도 확장됩니다. 


#2. 치킨 게임(겁쟁이 게임)

치킨게임 이미지 (충돌하는 A와 B)

치킨(Chicken)은 겁쟁이를 표현하기도 합니다. 치킨 게임(The game of chicken, the hawk–dove game or snowdrift game, 매와 비둘기 게임, 겁쟁이 게임)의 용어는 가상적인 사고 게임에서 비롯되었는데, 두 사람이 각각 자동차를 타고 서로에게 돌진합니다. 이때 누군가가 핸들을 돌려 피하지 않으면 양쪽 모두 죽게 되지만, 누군가가 피한다면 먼저 피하는 사람이 겁쟁이(chicken)가 되어 결국 게임에서 지게 됩니다. 이런 상황을 가정해서 만든 게임입니다. 할리우드 영화에서도 많이 나왔던 장면입니다.

치킨 게임의 보상 행렬

 

이 게임에서의 가장 좋은 시나리오는 나(A)는 직진을 하고, 상대방(B)는 겁을 먹고 자동차 핸들을 돌려 방향을 변경하는 것입니다. 물론 최악의 경우는 둘 다 돌진해서 충돌로 공명하는 것입니다. 이판사판 끝장승부가 되겠습니다. 

 

상대방이 합리적이라고 가정하면, 치킨 게임에서 이길 수 있는 방법은 충돌을 하면 했지, 핸들을 절대로 돌리지 않겠다는 강력한 의지를 상대에게 확인시켜주는 것입니다(예를 들면 핸들에 자신의 손을 묶어 직진 혹은 핸들을 망가뜨려 직진. 배수진 전략). 하지만 이와 같은 승리를 얻기 위해서는 충돌해서 둘 다 죽는 치명적인 위험도 감수해야합니다. 그래서 치킨 게임에서는 미친놈이 이긴다고 말하기도 합니다. 그러나 상대방도 미친놈이면 파국으로 갑니다. 현실에서는 이를 고려해서 타협하는 전략도 있습니다.

 

이와 같은 치킨 게임의 비즈니스 분야에서의 예로는 메모리 반도체 분야에서의 삼성전자와 일본 업체들의 경쟁을 들 수 있습니다. 과거 삼성전자가 손실을 감수해서 반도체 가격을 계속해서 내려서 결국 시장을 독식하게 되었습니다.

치킨 게임은 제2차 세계대전 이후 냉전 시대에서 미국과 소련의 군비 경쟁도 이런 치킨 게임에 비유하면서 국제정치학 용어로도 쓰이게 되었습니다.

 


#3. 인공지능(AI)에서의 게임 이론 활용

인공지능 측면에서 게임 이론은 기본적으로 결정을 내리는 데 도움이 됩니다. 그 중의 하나는 생성적 적대 신경망(Generative Adversarial Network; GAN. 이하 GAN)의 개념입니다 . 

 

이 개념은 2014년에 이안 굿펠로우(Ian. j. Goodfellow)에 의해 발표되었습니다. GAN은 비지도 학습에 사용되는 인공지능 알고리즘으로, 제로섬 게임 틀 안에서 서로 경쟁하는 두 개의 신경 네트워크 시스템에 의해 구현됩니다. 이것은 본질적으로 두 신경망 간의 경쟁 게임입니다.  내부적으로 경쟁하는 프로세스는 더 이상 개선 범위가없는 상태에 도달 할 때까지 계속됩니다. 이 상태가 바로 내쉬 균형(Nash equilibrium)입니다.  본질적으로 내쉬 균형을 찾기 위해 지속적으로 최적화하고 있는 것입니다.

 

또 다른 응용의 예로 피츠버그의 카네기 멜론 대학교에서 개발된 Libratus(리브라투스)가 있습니다. Libratus는 텍사스 홀덤(Texas hold'em)과 같은 포커를 하기 위해 고안된 인공 지능 컴퓨터 프로그램입니다. 텍사스 홀덤(Texas hold'em)은 플레잉 카드로 즐기는 가장 대표적인 "커뮤니티 카드 포커" 게임이며, 손패 2장과 공유카드 5장으로 족보를 맞춰서 높은 쪽이 승리하는 게임입니다. Libratu의 성능은 20,000개 이상의 포커 족보(hands of poker)로 세계 챔피언을 제치고 있습니다. Libratus의 놀라운 점은 기계 학습 방법을 전혀 사용하지 않는다는 것입니다.  게임 이론은 이 Libratus의 핵심 아이디어입니다. Deep Learning 또는 Reinforcement Learning 방법에 비해 상대적으로 낮은 컴퓨팅 파워를 사용합니다.  

 

게임 이론은 인공지능 자율 주행 자동차를 사용하여 지역의 교통 흐름을 개선하는 데에도 활용됩니다. 각 자동차는 외부 환경과 완벽한 상호 작용을 합니다. 특정 경로를 따라가는 것이 여행에 편리 할 수 ​​있기 때문에 자동차가 다른 자동차와 충돌 할 수 있다는 것을 고려해야합니다. 이런 상태는 게임 이론으로 쉽게 모델링 할 수 있습니다. 게임 이론 측면에서 자동차는 플레이어 역할을 하며 내쉬 균형은 서로 다른 자동차 간의 협업 지점으로 생각할 수 있습니다.

 

이외에도 다양한 분야에서 게임 이론을 인공지능에 접목하는 시도가 이어지고 있습니다.  

 

Copyright 2021. 『오드리공주될뻔 블로거』  All rights reserved.