2017

Attention Is All You Need — de Transformer

Google Brain publiceert de Transformer-architectuur, die alle recurrente netwerken vervangt en de basis vormt voor GPT, BERT, Claude, Gemini en alle moderne LLMs.

De architectuur die de wereld veranderde

In juni 2017 presenteerden Ashish Vaswani en zeven collega's bij Google Brain een artikel op de NIPS-conferentie met de titel Attention Is All You Need. Het papier introduceerde de Transformer-architectuur, een volledig nieuw type neuraal netwerk gebaseerd op een mechanisme genaamd self-attention. De Transformer verving de tot dan toe dominante recurrente netwerken (RNNs en LSTMs) voor taalverwerking en bleek universeel schaalbaar te zijn. Vrijwel elk groot AI-systeem dat daarna werd gebouwd — GPT, BERT, Claude, Gemini, Llama — is een Transformer.

Het probleem met recurrente netwerken

Voor 2017 werden taaltaken voornamelijk opgelost met Recurrent Neural Networks (RNNs) en hun verbeterde variant Long Short-Term Memory (LSTM). Deze netwerken verwerken tekst sequentieel — woord voor woord, van links naar rechts. Dit had twee fundamentele problemen. Ten eerste konden ze slecht omgaan met lange-afstandsafhankelijkheden: als een woord op positie 1 relevant was voor de betekenis van een woord op positie 100, was het fout-signaal na 99 stappen backpropagation vaak te zwak. Ten tweede waren ze moeilijk te paralleliseren: elk woord moest worden verwerkt na het vorige, wat training op GPU's vertraagde.

Self-attention: de kern van de Transformer

De Transformer lost beide problemen op met self-attention: een mechanisme waarbij het netwerk voor elk woord in de invoer berekent hoe relevant elk ander woord in de invoer is, tegelijkertijd. Elk woord “betaalt aandacht” aan elk ander woord, gewogen door een geleerde relevantie-score. Dit maakt directe verbindingen mogelijk tussen woorden op elke afstand, en de berekening kan volledig parallel worden uitgevoerd op GPU's. Multi-head attention voert dit mechanisme meerdere keren tegelijkertijd uit, elk met andere gewichten, waardoor het netwerk meerdere soorten relaties tegelijk kan leren.

De acht auteurs en hun lot

Het paper had acht auteurs, allemaal bij Google Brain ten tijde van publicatie: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser en Illia Polosukhin. Ze worden in de AI-wereld de “Transformer Acht” of “Attention Acht” genoemd. Vrijwel allemaal verlieten ze Google om eigen AI-bedrijven op te richten: Noam Shazeer oprichtte Character.AI, Aidan Gomez richtte Cohere op, en Illia Polosukhin richtte NEAR Protocol op. Het paper is een van de meest geciteerde academische papers in de geschiedenis van de informatica.

Schaling zonder grenzen

Het cruciale voordeel van de Transformer was schaalbaarheid. Terwijl RNNs na een bepaalde schaal inefficiënt werden, verbeterden Transformers vrijwel lineair met meer data en rekenkracht. OpenAI demonstreerde dit met GPT-1 (2018), GPT-2 (2019), GPT-3 (2020) en GPT-4 (2023). De scaling laws van Kaplan et al. (2020) formaliseerden dit: model prestaties verbeterden voorspelbaar met meer parameters, meer data en meer rekenkracht. Dit gaf tech-bedrijven een direct recept: investeer meer in rekenkracht en data, en je krijgt betere modellen.

Bronnen

Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762. arxiv.org
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Wikipedia — Transformer
The Illustrated Transformer (Jay Alammar)

Attention Is All You Need — de Transformer

De architectuur die de wereld veranderde

Het probleem met recurrente netwerken

Self-attention: de kern van de Transformer

De acht auteurs en hun lot

Schaling zonder grenzen

Bronnen

Ster Software

Verkennen

Over

Juridisch