1. 체스 챔피언 : 딥 블루
- 1997년 Garry Kasparov(1963~) vs Deep Blue 대결
- 컴퓨터가 정규 시합에서 처음으로 인간을 꺾고 세계 챔피언으로 등극
- Game Tree : 게임에서 가능한 모든 경우의 수를 트리 형태로 나타냄
- 체스 게임트리 크기는 10^120, 초당 2억번의 가능성을 계산
- 가지치기 : 모든 경로를 완전 탐색하지 않고 한 번 탐색해 보고 성과가 없으면 그 쪽은 더이상 탐색을 하지 않고 나뭇가지 자르듯 쳐 내버림
2. 바둑을 넘보다
- 컴퓨터가 정규 시합에서 처음으로 인간을 꺾고 세계 챔피언으로 등극
- 체스 게임트리 크기는 10^120, 초당 2억번의 가능성을 계산
- 바둑의 무작위 경우수는 19x19=361, 361!->10^768 가능함
- 우조의 원자수 10^80
- 바둑의 게임 트리 크기 10^360
3. 도박의 확률 : 몬테카를로 방법
- 우조의 원자수 10^80
- 바둑의 게임 트리 크기 10^360
- 몬테카를로 방법이 도입되어 비로소 바둑을 이길 수 있는 가능성이 보임
- 몬테카를로는 관광도시로 카지노와 도박으로 유명
- 1940년 스타니스와프 울람(1909~84)에 의해 명명됨 - 중성자 확산 같은 복잡한 문제는 차라리 여러 번의 무작위 컴퓨터 실험으로 결과를 관찰하는게 실용적
- 레미 쿨롱(1974~) : 몬테카를로 트리 탐색을 처음 고안함
- 아자 황(1978~) : 레미 쿨롱의 제자로 바둑 인공지능 외길 연구함
- 이세돌 대국에서 알파고 대신하여 바둑판에 착점하였음
- 무작위로 샘플링하여 정답을 찾는 방식
- 잭팟이 터질 확률이 0.03% 인 슬롯머신
- 1만번 도전하면 3번은 잭팟이 터짐
- 계속 도전하면 원래 확률만큼의 결과를 얻을 수 있음
- 바둑 인공지능의 가장 어려운 문제는 현재 국면이 어떤 상태인지를 바로 알기 어려움
- 어느 한쪽이 유리하다면, 무작위로 바둑을 둔다고 해도 유리한 쪽이 이길 가능성이 높다고 봄
- 선거 결과 예측시 1억명의 전 국민에게 물어보지 않고 천명 정도의 무작위 추출 해도 비슷한 결과가 나오는 것과 같음
- 몬테카를로 트리 탐색 도입
- AI 프로그램은 6단 수준에 도달
- 이후 두 종류의 인공 신경망을 만들어 실력을 획기적으로 향상
- 정책망 Policy Network, 가치망 Value Network
- 몬테카를로는 관광도시로 카지노와 도박으로 유명
- 1940년 스타니스와프 울람(1909~84)에 의해 명명됨 - 중성자 확산 같은 복잡한 문제는 차라리 여러 번의 무작위 컴퓨터 실험으로 결과를 관찰하는게 실용적
- 레미 쿨롱(1974~) : 몬테카를로 트리 탐색을 처음 고안함
- 아자 황(1978~) : 레미 쿨롱의 제자로 바둑 인공지능 외길 연구함
- 이세돌 대국에서 알파고 대신하여 바둑판에 착점하였음
- 무작위로 샘플링하여 정답을 찾는 방식
- 1만번 도전하면 3번은 잭팟이 터짐
- 계속 도전하면 원래 확률만큼의 결과를 얻을 수 있음
- 어느 한쪽이 유리하다면, 무작위로 바둑을 둔다고 해도 유리한 쪽이 이길 가능성이 높다고 봄
- 선거 결과 예측시 1억명의 전 국민에게 물어보지 않고 천명 정도의 무작위 추출 해도 비슷한 결과가 나오는 것과 같음
- AI 프로그램은 6단 수준에 도달
- 정책망 Policy Network, 가치망 Value Network
4. 정책망 : 어디에 돌을 내려 놓을까?
- 정책망은 사람이 만든 기보를 이용해 학습함
- KGS 사이트에서 6단 이상의 기보 데이터를 가져와서 학습
- 정책망은 16만회 게임에서 3,000만 수를 가져옴
- 바둑의 현재 상태 정보를 입력값으로 하여 가능성이 높은 361곳 중 한 곳 선택
- 이렇게 하면 정확도는 57%
- 정책망 3가지
- 기보 학습 정책망
- 앞서 살펴본 사람의 기보를 활용해 학습한 정책망
- 룰아웃 정책망
- 정책망을 가볍게 만들어 속도를 빠르게 하는 정책망, 24% 정확도
- 강화학습 정책망
- 알파고 끼리 대국을 치르면서 스스로 실력을 향상
5. 가치망 : 형세를 파악하다
- KGS 사이트에서 6단 이상의 기보 데이터를 가져와서 학습
- 정책망은 16만회 게임에서 3,000만 수를 가져옴
- 바둑의 현재 상태 정보를 입력값으로 하여 가능성이 높은 361곳 중 한 곳 선택
- 이렇게 하면 정확도는 57%
- 기보 학습 정책망
- 앞서 살펴본 사람의 기보를 활용해 학습한 정책망
- 룰아웃 정책망
- 정책망을 가볍게 만들어 속도를 빠르게 하는 정책망, 24% 정확도
- 강화학습 정책망
- 알파고 끼리 대국을 치르면서 스스로 실력을 향상
- 현재 국면에서 승패 여부를 예측하는 망
- 스스로 대국하는 강화학습을 통해 현 위치에 착점하였을 때의 확률을 표현
- 강화학습을 통해 게임의 국면을 판단할 수 있도록 함
6. 알파고가 수를 두는 방법
- 스스로 대국하는 강화학습을 통해 현 위치에 착점하였을 때의 확률을 표현
- 강화학습을 통해 게임의 국면을 판단할 수 있도록 함
- 고수의 기보 -> 지도학습 -> 정책망 -> 강화학습 -> 가치망
- 바둑의 경우
- 바둑은 탐색해야 하는 게임 트리가 엄청나게 크다
- 게임 트리를 전부 탐색하는 것은 불가능 하다
- 일부만 무작위로 샘플랭하여 탐색대호 비슷한 결과를 낼 수 있다
- 몬테카를로 트리 탐색 사용
- 99% 승률이 예상되도 1% 허점이 있으면 패배
- 무작위로 탐색하되 더 꼼꼼하게 탐색해서 묘수를 놓치지 않도록 이 방법 사용
- 몬테카를로 트리 탐색 순서
- 어떤 수가 유망한지 가치를 따져보고 승리할 가능성이 보이는 수를 선택
- 정책망으로 다음 수를 어디에 둘지 정함
- 기보 학습 정책망에서 정한 수를 게임이 끝날 때까지 시뮬레이션함
- 시뮬레이션이 너무 많기 때문에 이때 몬테카를로 방법을 사용
- 빠르게 시뮬레이션해야 하므로 룰아웃 정책망을 접목함
- 이때 가치망을 활용하여 승리 여부를 확률로 확인함
- 시뮬레이션 결과와 가치망의 결과를 각각 50% 반영하여 장단점 보완
- 시뮬레이션으 가장 많이 진행한 수를 다음 수로 선택
7. 신의 한수
- 바둑은 탐색해야 하는 게임 트리가 엄청나게 크다
- 게임 트리를 전부 탐색하는 것은 불가능 하다
- 일부만 무작위로 샘플랭하여 탐색대호 비슷한 결과를 낼 수 있다
- 99% 승률이 예상되도 1% 허점이 있으면 패배
- 무작위로 탐색하되 더 꼼꼼하게 탐색해서 묘수를 놓치지 않도록 이 방법 사용
- 어떤 수가 유망한지 가치를 따져보고 승리할 가능성이 보이는 수를 선택
- 정책망으로 다음 수를 어디에 둘지 정함
- 기보 학습 정책망에서 정한 수를 게임이 끝날 때까지 시뮬레이션함
- 시뮬레이션이 너무 많기 때문에 이때 몬테카를로 방법을 사용
- 빠르게 시뮬레이션해야 하므로 룰아웃 정책망을 접목함
- 이때 가치망을 활용하여 승리 여부를 확률로 확인함
- 시뮬레이션 결과와 가치망의 결과를 각각 50% 반영하여 장단점 보완
- 시뮬레이션으 가장 많이 진행한 수를 다음 수로 선택
- 알파고는 네번째 대국에서 이세돌이 '신의 한수' 78수를 막아내지 못함
- 신의 한 수를 허용한 이유
- 알파고는 몬테카를로 트리 탐색으로 유망한 수를 꼼꼼하게 탐색함
- 확률이 높은 곳으로 더 깊게 탐색하여 신뢰가 높은 곳에 착점
- 알파고는 78수 지접을 1만분의 1 로 낮게 예측
- 확률이 낮은 지점이므로 수 십번 정도 탐색하는데 그침
- 78수 착점 이후, 알파고는 승률이 높은 지점을 찾지 못 해 이상한 곳에 둠
8. 인간은 필요없다.
- 알파고는 몬테카를로 트리 탐색으로 유망한 수를 꼼꼼하게 탐색함
- 확률이 높은 곳으로 더 깊게 탐색하여 신뢰가 높은 곳에 착점
- 알파고는 78수 지접을 1만분의 1 로 낮게 예측
- 확률이 낮은 지점이므로 수 십번 정도 탐색하는데 그침
- 78수 착점 이후, 알파고는 승률이 높은 지점을 찾지 못 해 이상한 곳에 둠
- 알파고 제로
- 인간 바둑기보를 활용하지 않고, 처음부터 자신과의 대국을 통해 실력을 높임
- 완전 무에서 시작하여 '제로'라고 명명함
- 매일 백만 대국을 치르면서 실력을 향상 시킴
- 결국 기존의 알파고를 100대 0으로 이김
- 엘로 평점 Elo Rating
- 체스에도 사용한 점수 체계로, 이기면 증가하고 지면 감소함
- 나보다 점수가 높은 상대를 이기면 점수가 큰 폭으로 증가
- 나보다 점수가 낮은 상댁를 이기면 점수가 작은 폭으로 증가
- Elo Rating
- 이세돌 : 3,586(2010.4)
- 알파고 : 3,739(2016.3)
- 알파고 마스터 : 4,858(2017.5)
- 알파고 제로 : 5,185(2017.10)
- 알파제로
- 바둑 뿐 아니라, 체스, 장기 등 게임 영역을 넓힘
- 어떤 체스 전략을 사용않고, 스톡피쉬(기존 체스 챔피언)에게 1판도 패하지 않음
- 알파고가 인간과의 대결에서 이겼다고 인류의 존재에 위협이 되진 않는다
- 지나치게 기술에 의존해서도 안되며 그렇다고 기술에 공포를 느껴서도 안된다
- 인간이 포크레인을 이용하여 땅을 잘 파듯이, 인공지능은 적절히 이용하면 인간의 삶을 질을 높이는데 훌륭한 역할을 할 것이다.
출처 :
1. 박상길, "비전공자도 이해할 수 있는 AI 지식", 반니, 2022.03.