Feb 20, 2023

알파고

1. 체스 챔피언 : 딥 블루

  • 1997년 Garry Kasparov(1963~) vs Deep Blue 대결 
    • 컴퓨터가 정규 시합에서 처음으로 인간을 꺾고 세계 챔피언으로 등극
  • Game Tree : 게임에서 가능한 모든 경우의 수를 트리 형태로 나타냄
    • 체스 게임트리 크기는 10^120, 초당 2억번의 가능성을 계산
  • 가지치기 : 모든 경로를 완전 탐색하지 않고 한 번 탐색해 보고 성과가 없으면 그 쪽은 더이상 탐색을 하지 않고 나뭇가지 자르듯 쳐 내버림  
2. 바둑을 넘보다

  • 바둑의 무작위 경우수는 19x19=361, 361!->10^768 가능함 
    • 우조의 원자수 10^80
    • 바둑의 게임 트리 크기 10^360 
3. 도박의 확률 : 몬테카를로 방법

  • 몬테카를로 방법이 도입되어 비로소 바둑을 이길 수 있는 가능성이 보임
    • 몬테카를로는 관광도시로 카지노와 도박으로 유명 
    • 1940년 스타니스와프 울람(1909~84)에 의해 명명됨 - 중성자 확산 같은 복잡한 문제는 차라리 여러 번의 무작위 컴퓨터 실험으로 결과를 관찰하는게 실용적
    • 레미 쿨롱(1974~) : 몬테카를로 트리 탐색을 처음 고안함   
    • 아자 황(1978~) : 레미 쿨롱의 제자로 바둑 인공지능 외길 연구함 
      • 이세돌 대국에서 알파고 대신하여 바둑판에 착점하였음 
    • 무작위로 샘플링하여 정답을 찾는 방식 
  • 잭팟이 터질 확률이 0.03% 인 슬롯머신
    • 1만번 도전하면 3번은 잭팟이 터짐
    • 계속 도전하면 원래 확률만큼의 결과를 얻을 수 있음 
  • 바둑 인공지능의 가장 어려운 문제는 현재 국면이 어떤 상태인지를 바로 알기 어려움
    • 어느 한쪽이 유리하다면, 무작위로 바둑을 둔다고 해도 유리한 쪽이 이길 가능성이 높다고 봄
    • 선거 결과 예측시 1억명의 전 국민에게 물어보지 않고 천명 정도의 무작위 추출 해도 비슷한 결과가 나오는 것과 같음 
  • 몬테카를로 트리 탐색 도입
    • AI 프로그램은 6단 수준에 도달
  • 이후 두 종류의 인공 신경망을 만들어 실력을 획기적으로 향상
    • 정책망 Policy Network, 가치망 Value Network  

4. 정책망 : 어디에 돌을 내려 놓을까?

  • 정책망은 사람이 만든 기보를 이용해 학습함 
    • KGS 사이트에서 6단 이상의 기보 데이터를 가져와서 학습  
    • 정책망은 16만회 게임에서 3,000만 수를 가져옴 
    • 바둑의 현재 상태 정보를 입력값으로 하여 가능성이 높은 361곳 중 한 곳 선택
      • 이렇게 하면 정확도는 57%  
  • 정책망 3가지
    • 기보 학습 정책망 
      • 앞서 살펴본 사람의 기보를 활용해 학습한 정책망
    • 룰아웃 정책망
      • 정책망을 가볍게 만들어 속도를 빠르게 하는 정책망, 24% 정확도
    • 강화학습 정책망
      • 알파고 끼리 대국을 치르면서 스스로 실력을 향상 
5. 가치망 : 형세를 파악하다

  • 현재 국면에서 승패 여부를 예측하는 망  
    • 스스로 대국하는 강화학습을 통해 현 위치에 착점하였을 때의 확률을 표현 
    • 강화학습을 통해 게임의 국면을 판단할 수 있도록 함  
6. 알파고가 수를 두는 방법

  • 고수의 기보 -> 지도학습 -> 정책망 -> 강화학습 -> 가치망 
  • 바둑의 경우
    • 바둑은 탐색해야 하는 게임 트리가 엄청나게 크다
    • 게임 트리를 전부 탐색하는 것은 불가능 하다
    • 일부만 무작위로 샘플랭하여 탐색대호 비슷한 결과를 낼 수 있다
  • 몬테카를로 트리 탐색 사용
    • 99% 승률이 예상되도 1% 허점이 있으면 패배
    • 무작위로 탐색하되 더 꼼꼼하게 탐색해서 묘수를 놓치지 않도록 이 방법 사용
  • 몬테카를로 트리 탐색 순서
    1. 어떤 수가 유망한지 가치를 따져보고 승리할 가능성이 보이는 수를 선택
    2. 정책망으로 다음 수를 어디에 둘지 정함  
    3. 기보 학습 정책망에서 정한 수를 게임이 끝날 때까지 시뮬레이션함 
    4. 시뮬레이션이 너무 많기 때문에 이때 몬테카를로 방법을 사용 
    5. 빠르게 시뮬레이션해야 하므로 룰아웃 정책망을 접목함 
    6. 이때 가치망을 활용하여 승리 여부를 확률로 확인함 
    7. 시뮬레이션 결과와 가치망의 결과를 각각 50% 반영하여 장단점 보완
    8. 시뮬레이션으 가장 많이 진행한 수를 다음 수로 선택   
7. 신의 한수

  • 알파고는 네번째 대국에서 이세돌이 '신의 한수' 78수를 막아내지 못함 
  • 신의 한 수를 허용한 이유
    • 알파고는 몬테카를로 트리 탐색으로 유망한 수를 꼼꼼하게 탐색함
    • 확률이 높은 곳으로 더 깊게 탐색하여 신뢰가 높은 곳에 착점
    • 알파고는 78수 지접을 1만분의 1 로 낮게 예측
    • 확률이 낮은 지점이므로 수 십번 정도 탐색하는데 그침 
    • 78수 착점 이후, 알파고는 승률이 높은 지점을 찾지 못 해 이상한 곳에 둠 
8. 인간은 필요없다.  

  • 알파고 제로 
    • 인간 바둑기보를 활용하지 않고, 처음부터 자신과의 대국을 통해 실력을 높임
    • 완전 무에서 시작하여 '제로'라고 명명함
    • 매일 백만 대국을 치르면서 실력을 향상 시킴 
    • 결국 기존의 알파고를 100대 0으로 이김 
  • 엘로 평점 Elo Rating
    • 체스에도 사용한 점수 체계로, 이기면 증가하고 지면 감소함
    • 나보다 점수가 높은 상대를 이기면 점수가 큰 폭으로 증가
    • 나보다 점수가 낮은 상댁를 이기면 점수가 작은 폭으로 증가
    • Elo Rating
      • 이세돌 : 3,586(2010.4)
      • 알파고 : 3,739(2016.3)
      • 알파고 마스터 : 4,858(2017.5)
      • 알파고 제로 : 5,185(2017.10)
  • 알파제로
    • 바둑 뿐 아니라, 체스, 장기 등 게임 영역을 넓힘
    • 어떤 체스 전략을 사용않고, 스톡피쉬(기존 체스 챔피언)에게 1판도 패하지 않음
  • 알파고가 인간과의 대결에서 이겼다고 인류의 존재에 위협이 되진 않는다
    • 지나치게 기술에 의존해서도 안되며 그렇다고 기술에 공포를 느껴서도 안된다
    • 인간이 포크레인을 이용하여 땅을 잘 파듯이, 인공지능은 적절히 이용하면 인간의 삶을 질을 높이는데 훌륭한 역할을 할 것이다. 
출처 : 
  1. 박상길, "비전공자도 이해할 수 있는 AI 지식", 반니, 2022.03.