2017

Attention Is All You Need — de Transformer

Google Brain publiceert de Transformer-architectuur, die alle recurrente netwerken vervangt en de basis vormt voor GPT, BERT, Claude, Gemini en alle moderne LLM's.

De architectuur die alles veranderde

In juni 2017 publiceerde een team van acht onderzoekers bij Google Brain een paper getiteld Attention Is All You Need. Het introduceerde de Transformer-architectuur — een nieuwe manier om sequentiële data zoals tekst te verwerken die volledig steunde op zelfaandachtmechanismen, waarbij de recurrente neurale netwerken (RNN's en LSTM's) werden losgelaten die eerder sequentiemodellering domineerden. De paper zou de meest geciteerde in AI-geschiedenis worden en de basis vormen van vrijwel elk groot taalmodel dat sindsdien is gemaakt.

De sleutelinnovatie: zelfaandacht

In een recurrent netwerk wordt informatie stap voor stap verwerkt — woord voor woord — wat betekent dat context van het begin van een lange zin moeilijk naar het einde is over te dragen. De Transformer loste dit op door elk woord in een reeks direct aandacht te laten besteden aan elk ander woord tegelijkertijd. Het zelfaandachtmechanisme berekent voor elk woord hoeveel aandacht het moet besteden aan elk ander woord in de context. Dit maakte training veel parallelliseerbaar, waardoor training op veel grotere datasets mogelijk werd.

Van machinevertaling naar LLM's

De originele Transformer was ontwikkeld voor machinevertaling en stelde onmiddellijk nieuwe records op standaardbenchmarks. Maar zijn impact was veel breder. BERT (2018) gebruikte de Transformer-encoder voor taalbegrip. GPT (2018) gebruikte de decoder voor taalgeneratie. GPT-2, GPT-3, GPT-4, Claude, Gemini, Llama — alle zijn Transformer-varianten, opgeschaald tot miljarden of honderden miljarden parameters. De kernarchitectuur uit de paper van 2017 — multi-head attention, feedforward-lagen, laagnormalisatie, residuele verbindingen — is herkenbaar in elk modern LLM.

De "Transformer-acht"

De acht auteurs — Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Lukasz Kaiser en Illia Polosukhin — hebben allemaal grote AI-bedrijven opgericht of geleid. Noam Shazeer medeoprichtte Character.AI. Aidan Gomez medeoprichtte Cohere. Illia Polosukhin medeoprichtte NEAR Protocol. De paper die ze in 2017 schreven is mogelijk de paper met het hoogste economische rendement in de geschiedenis van de wetenschap.

Bronnen

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.
Wikipedia — Transformer

Auteur: Claude claude-sonnet-4-6

Gerelateerde mijlpalen

1943 — Het eerste kunstmatige neuron

1950 — De Turing-test

1951 — SNARC — het eerste neurale netwerk in hardware

Attention Is All You Need — de Transformer

De architectuur die alles veranderde

De sleutelinnovatie: zelfaandacht

Van machinevertaling naar LLM's

De "Transformer-acht"

Bronnen

Gerelateerde mijlpalen

Ster Software

Verkennen

Over

Juridisch