2016

AlphaGo verslaat Lee Sedol

DeepMinds AlphaGo verslaat de wereldkampioen Go Lee Sedol met 4–1, twintig jaar eerder dan experts verwachtten.

Het onmogelijk geachte: AI verslaat de mensheid in Go

In maart 2016 versloeg DeepMinds AI-systeem AlphaGo de Zuid-Koreaanse Go-grootmeester Lee Sedol met 4–1 in een match van vijf partijen in Seoul. Go gold al decennialang als het ultieme tegenvoorbeeld voor AI: het bord heeft meer mogelijke posities dan atomen in het waarneembare universum (10^170 mogelijke spelen), en sterke spelers vertrouwen op intuïtie en patroonherkenning die experts meenden onmogelijk te zijn voor computers. AlphaGo doorbrak dit taboe twintig jaar eerder dan de meeste AI-onderzoekers hadden voorspeld.

Hoe AlphaGo werkt

AlphaGo combineerde twee technologische pijlers. Ten eerste gebruikte het diep reinforcement learning: door miljoenen partijen te spelen tegen zichzelf leerde het welke zetten tot winst leidden, zonder menselijke begeleiding. Ten tweede gebruikte het Monte Carlo Tree Search (MCTS): een zoekalgoritme dat de meest veelbelovende aftakkingen van de spelsboom uitwerkt, geleid door de waarschijnlijkheidsschattingen van de deep learning-componenten. Twee neurale netwerken werkten samen: een policy network dat kansschattingen gaf voor elke mogelijke zet, en een value network dat de kans op winst vanuit een gegeven positie schatte.

Zet 37: het moment dat alles veranderde

In partij 2 speelde AlphaGo zet 37 op de 5e rij — een zet die Go-commentatoren onmiddellijk als een vergissing beschouwden en die nog nooit was gespeeld in miljoenen professionele partijen. Lee Sedol nam een pauze van vijftien minuten. Pas geleidelijk realiseerde iedereen zich dat de zet geniale strategische implicaties had — inzichten die geen menselijke speler had ontwikkeld omdat menselijke intuïtie gestuurd wordt door de partijen die mensen gezien hebben. AlphaGo had een nieuw soort Go-intuïtie geleerd, anders dan alles wat mensen speelden.

Lee Sedols reactie en de culturele impact

Lee Sedol, een van de beste Go-spelers van zijn generatie met achttien wereldtitels, verloor vier van de vijf partijen maar won er één: partij 4. Die overwinning — met een zet die AlphaGo niet kon hanteren (de beroemde zet 78) — was een moment van menselijke triomf dat wereldwijd werd gevierd. In 2019 kondigde Lee Sedol zijn pensioen aan; hij noemde AlphaGo een “ontginbare entiteit”. In Zuid-Korea werd de match live op tv uitgezonden en trok miljoenen kijkers.

Opvolgers: AlphaGo Zero en AlphaZero

In oktober 2017 publiceerde DeepMind AlphaGo Zero: een versie die Go leerde zonder enige menselijke kennis, uitsluitend door tegen zichzelf te spelen. AlphaGo Zero versloeg de originele AlphaGo met 100–0. In december 2017 volgde AlphaZero, dat in vier uur schaken leerde en in 24 uur ook shogi en Go beheerste — en alle bestaande programma's voor deze spelen overtrof. AlphaZero's schaakstijl werd door grootmeesters beschreven als schoon, inventief en zeker bovenmenselijk in positiebegrip. De implicatie was duidelijk: de methode van zelf-leren via reinforcement learning was een algemeen principe, niet een truc voor Go.

Bronnen

Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529, 484–489.
Silver, D. et al. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv:1712.01815.
Wikipedia — AlphaGo versus Lee Sedol
AlphaGo — de documentaire (YouTube)

AlphaGo verslaat Lee Sedol

Het onmogelijk geachte: AI verslaat de mensheid in Go

Hoe AlphaGo werkt

Zet 37: het moment dat alles veranderde

Lee Sedols reactie en de culturele impact

Opvolgers: AlphaGo Zero en AlphaZero

Bronnen

Ster Software

Explore

About

Legal