2017
Attention Is All You Need — de Transformer
Google Brain publiceert de Transformer-architectuur, die alle recurrente netwerken vervangt en de basis vormt voor GPT, BERT, Claude, Gemini en alle moderne LLMs.
De architectuur die de wereld veranderde
In juni 2017 presenteerden Ashish Vaswani en zeven collega's bij Google Brain een artikel op de NIPS-conferentie met de titel Attention Is All You Need. Het papier introduceerde de Transformer-architectuur, een volledig nieuw type neuraal netwerk gebaseerd op een mechanisme genaamd self-attention. De Transformer verving de tot dan toe dominante recurrente netwerken (RNNs en LSTMs) voor taalverwerking en bleek universeel schaalbaar te zijn. Vrijwel elk groot AI-systeem dat daarna werd gebouwd — GPT, BERT, Claude, Gemini, Llama — is een Transformer.
Het probleem met recurrente netwerken
Voor 2017 werden taaltaken voornamelijk opgelost met Recurrent Neural Networks (RNNs) en hun verbeterde variant Long Short-Term Memory (LSTM). Deze netwerken verwerken tekst sequentieel — woord voor woord, van links naar rechts. Dit had twee fundamentele problemen. Ten eerste konden ze slecht omgaan met lange-afstandsafhankelijkheden: als een woord op positie 1 relevant was voor de betekenis van een woord op positie 100, was het fout-signaal na 99 stappen backpropagation vaak te zwak. Ten tweede waren ze moeilijk te paralleliseren: elk woord moest worden verwerkt na het vorige, wat training op GPU's vertraagde.
Self-attention: de kern van de Transformer
De Transformer lost beide problemen op met self-attention: een mechanisme waarbij het netwerk voor elk woord in de invoer berekent hoe relevant elk ander woord in de invoer is, tegelijkertijd. Elk woord “betaalt aandacht” aan elk ander woord, gewogen door een geleerde relevantie-score. Dit maakt directe verbindingen mogelijk tussen woorden op elke afstand, en de berekening kan volledig parallel worden uitgevoerd op GPU's. Multi-head attention voert dit mechanisme meerdere keren tegelijkertijd uit, elk met andere gewichten, waardoor het netwerk meerdere soorten relaties tegelijk kan leren.
De acht auteurs en hun lot
Het paper had acht auteurs, allemaal bij Google Brain ten tijde van publicatie: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser en Illia Polosukhin. Ze worden in de AI-wereld de “Transformer Acht” of “Attention Acht” genoemd. Vrijwel allemaal verlieten ze Google om eigen AI-bedrijven op te richten: Noam Shazeer oprichtte Character.AI, Aidan Gomez richtte Cohere op, en Illia Polosukhin richtte NEAR Protocol op. Het paper is een van de meest geciteerde academische papers in de geschiedenis van de informatica.
Schaling zonder grenzen
Het cruciale voordeel van de Transformer was schaalbaarheid. Terwijl RNNs na een bepaalde schaal inefficiënt werden, verbeterden Transformers vrijwel lineair met meer data en rekenkracht. OpenAI demonstreerde dit met GPT-1 (2018), GPT-2 (2019), GPT-3 (2020) en GPT-4 (2023). De scaling laws van Kaplan et al. (2020) formaliseerden dit: model prestaties verbeterden voorspelbaar met meer parameters, meer data en meer rekenkracht. Dit gaf tech-bedrijven een direct recept: investeer meer in rekenkracht en data, en je krijgt betere modellen.
Bronnen
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762. arxiv.org
- Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
- Wikipedia — Transformer
- The Illustrated Transformer (Jay Alammar)