2012

AlexNet — de deep learning revolutie

AlexNet van Krizhevsky, Sutskever en Hinton wint de ImageNet-competitie met een ongekend grote marge en luidt de deep learning-revolutie in.

De doorbraak die alles veranderde

Op 25 september 2012 diende het team van Alex Krizhevsky, Ilya Sutskever en Geoffrey Hinton van de Universiteit van Toronto hun inzending in voor de ImageNet Large Scale Visual Recognition Challenge (ILSVRC 2012). De resultaten, gepresenteerd op de NIPS-conferentie in december 2012, veroorzaakten een schok die de AI-wereld volledig transformeerde. Hun convolutioneel neuraal netwerk, later bekend als AlexNet, bereikte een top-5-foutpercentage van 15,3% — meer dan 10 procentpunten beter dan de runner-up, die op 26,2% zat.

De architectuur van AlexNet

AlexNet bestond uit acht lerende lagen: vijf convolutionele lagen gevolgd door drie volledig verbonden lagen. De netwerk had 60 miljoen parameters en werd getraind op twee NVIDIA GTX 580 GPU's met elk 3 GB geheugen — zo weinig dat de twee GPU's parallel moesten werken, iets wat speciale architectuurkeuzen vereiste. De sleutelinnovaties waren meervoudig: ReLU-activatiefuncties (Rectified Linear Units) versnelden de training drastisch ten opzichte van de tot dan toe gebruikelijke sigmoid-functies; dropout voorkwam overfitting door willekeurig neuronen tijdelijk uit te schakelen tijdens de training; data augmentation vergrootte de effectieve trainingsdataset door afbeeldingen te spiegelen, verschuiven en kleuren te veranderen.

GPU-training als gamechanger

De beslissing om GPU's te gebruiken voor de training was cruciaal. GPU's waren oorspronkelijk ontworpen voor videogames — ze waren geoptimaliseerd voor het parallel verwerken van miljoenen kleine berekeningen tegelijkertijd, precies wat neurale netwerken nodig hebben. Hinton en zijn team hadden al eerder GPU-training onderzocht; AlexNet toonde definitief aan dat GPU's de benodigde rekenkracht voor grote neurale netwerken konden leveren. NVIDIA, dat de GTX 580-chips maakte, had hier geen deel aan gehad maar zou de komende jaren enorm profiteren: hun marktwaarde groeide van enkele miljarden in 2012 naar meer dan 3 biljoen dollar in 2024.

De reactie van de onderzoeksgemeenschap

Het effect op de computervisie-gemeenschap was onmiddellijk en dramatisch. Veel onderzoekers hadden jarenlang gewerkt aan handmatig ontworpen features — SIFT, HOG, SURF — die door domeinexperts waren bedacht. AlexNet bewees dat een netwerk zelf de relevante features kon leren rechtstreeks uit de pixels, zonder menselijke tussenkomst. Binnen twee jaar was vrijwel elk state-of-the-art computer vision-systeem een diep convolutioneel neuraal netwerk. De handmatige feature-engineering was achterhaald.

De weg van Toronto naar OpenAI en Google

Het team dat AlexNet bouwde werd uiteen gedreven maar bleef invloedrijk. Geoffrey Hinton werd in 2013 door Google geacquireerd via een acquisitie van zijn startupje DNN Research voor gemeld 44 miljoen dollar. Alex Krizhevsky vertrok later ook naar Google. Ilya Sutskever werd medeoprichter van OpenAI in 2015 en werd chief scientist — hij speelde een centrale rol bij de ontwikkeling van GPT-2, GPT-3, GPT-4 en ChatGPT. In 2024 verliet hij OpenAI om zijn eigen startup Safe Superintelligence op te richten.

Bronnen

Krizhevsky, A., Sutskever, I. & Hinton, G.E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems (NIPS), 25.
LeCun, Y., Bengio, Y. & Hinton, G. (2015). Deep learning. Nature, 521, 436–444.
Wikipedia — AlexNet
Origineel paper — NIPS 2012

AlexNet — de deep learning revolutie

De doorbraak die alles veranderde

De architectuur van AlexNet

GPU-training als gamechanger

De reactie van de onderzoeksgemeenschap

De weg van Toronto naar OpenAI en Google

Bronnen

Ster Software

Explore

About

Legal