2020

GPT-3

OpenAI lanceert GPT-3 met 175 miljard parameters: het eerste taalmodel dat overtuigend mensachtige tekst, code en vertalingen genereert en de wereld doet beseffen wat LLMs kunnen.

GPT-3: de schaalwet in actie

In mei 2020 publiceerde OpenAI het artikel Language Models are Few-Shot Learners en kondigde het de beschikbaarheid aan van GPT-3 — Generative Pre-trained Transformer 3 — via een beperkte API. Met 175 miljard parameters was GPT-3 meer dan honderd keer groter dan zijn voorganger GPT-2 en veruit het grootste taalmodel dat ooit was gemaakt. Maar de schaal was niet het meest verrassende: het was het gedrag dat voortkwam uit die schaal.

Few-shot learning: leren uit voorbeelden

De meest opzienbarende eigenschap van GPT-3 was zijn vermogen tot few-shot learning: het kon nieuwe taken uitvoeren op basis van slechts een paar voorbeelden in de prompt, zonder specifieke training voor die taak. Dit was fundamenteel anders dan hoe machine learning tot dan toe werkte. Normaal gesproken trainde men een model op honderden of duizenden voorbeelden van een specifieke taak. GPT-3 kon met drie of vier voorbeelden al goed presteren op taalvertaling, wiskundige sommen, code schrijven, essays, poezië en tientallen andere taken — taken waarvoor het nooit expliciet was getraind.

De schok van de mogelijkheden

De eerste gebruikers van de GPT-3 API rapporteerden verbluffende ervaringen. GPT-3 kon mediabeschrijvingen schrijven die van echte journalisten leken. Het kon Python-code schrijven op basis van een commentaar in gewone taal. Het kon filosofische essays schrijven in de stijl van specifieke denkers. Het kon medische vragen beantwoorden op een manier die artsen overtuigend vonden. Het kon creatieve fictie produceren, Socratische dialogen voeren en logische puzzels oplossen.

Mario Klingemann, een AI-kunstenaar, schreef: “GPT-3 voelt als een echo van menselijk schrijven, maar het is ons eigen echo die van ons wegweert.” De journalist Liam Porr liet een heel blog draaien met GPT-3-gegenereerde teksten — de posts werden trending op Hacker News zonder dat iemand het doorhad.

De schaalwetten van Kaplan

GPT-3 was ook het bewijs van de scaling laws die Kaplan et al. bij OpenAI eerder in 2020 hadden gepubliceerd. Deze wetten beschreven een voorspelbare relatie tussen modelgrootte, datagrootte, rekenkracht en prestaties. Meer van alles leidt voorspelbaar tot betere modellen. Dit gaf OpenAI — en al snel ook Google, DeepMind en Meta — een direct recept: bouw grotere modellen, train op meer data, gooi er meer GPU's op. GPT-3 was het bewijs van concept; GPT-4 (2023) en alle andere frontier-modellen zijn de directe uitlopers.

OpenAI en de API-strategie

OpenAI koos er bewust voor GPT-3 niet open source te publiceren, maar alleen via een API beschikbaar te stellen. Dit was controversieel — de organisatie had immers als missie “de ontwikkeling van AI ten voordele van de gehele mensheid.” Maar het gaf OpenAI inkomsten, controle over misbruik, en data over hoe GPT-3 werd gebruikt. GitHub Copilot (2021) werd gebouwd op GPT-3 Codex, een fijngezette versie voor code. ChatGPT (2022) was fijngezet GPT-3.5. Zonder GPT-3 had de huidige AI-industrie een heel andere vorm gehad.

Bronnen

Brown, T. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
OpenAI — GPT-3
Wikipedia — GPT-3

GPT-3

GPT-3: de schaalwet in actie

Few-shot learning: leren uit voorbeelden

De schok van de mogelijkheden

De schaalwetten van Kaplan

OpenAI en de API-strategie

Bronnen

Ster Software

Verkennen

Over

Juridisch