2020
GPT-3
OpenAI lanceert GPT-3 met 175 miljard parameters: het eerste taalmodel dat overtuigend mensachtige tekst, code en vertalingen genereert, waardoor de wereld beseft wat LLM's kunnen.
Het model dat alles veranderde
In mei 2020 publiceerde OpenAI de paper Language Models are Few-Shot Learners, waarin GPT-3 met 175 miljard parameters werd geïntroduceerd — destijds verreweg het grootste taalmodel ooit getraind. GPT-3 was opmerkelijk niet alleen vanwege zijn omvang, maar ook vanwege zijn emergente mogelijkheden: het kon coherente essays schrijven, werkende code genereren, talen vertalen, triviavragen beantwoorden en zelfs de basisbeginselen van redeneertoetsen doorstaan — allemaal zonder taakspecifieke fine-tuning, alleen door een paar voorbeelden in de prompt te tonen.
Few-shot leren
Het kernidee van GPT-3 was few-shot leren: door een paar voorbeelden van een taak in de invoerprompt te geven, kon GPT-3 die taak uitvoeren zonder zijn gewichten bij te werken. Dit was fundamenteel anders dan eerdere benaderingen, waarbij een model expliciet op gelabelde data voor elke nieuwe taak moest worden gefine-tuned. GPT-3 liet zien dat een voldoende groot taalmodel een soort algemeen probleemoplossend vermogen ontwikkelt via taal alleen.
Publieke toegang en impact
OpenAI maakte GPT-3 beschikbaar via een API in 2020, aanvankelijk in private bèta. Duizenden ontwikkelaars begonnen onmiddellijk applicaties te bouwen: schrijfassistenten, codegeneratoren, chatbots, zoektools. De demo's verspreidden zich via sociale media en creëerden wijdverspreide bewustwording dat er iets kwalitatief nieuws was gebeurd in AI. Het lokte ook zorgen uit over misbruik — nepnieuws, phishing, academisch fraude — en leidde ertoe dat OpenAI een zorgvuldig toegangsbeleid hanteerde.
Bronnen
- Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
- Wikipedia — GPT-3