2018
BERT
Google lanceert BERT, een bidirectioneel Transformer-taalmodel dat de standaard wordt voor zoekmachines en taalbegreip-taken.
BERT: taal begrijpen in beide richtingen
In oktober 2018 publiceerde Jacob Devlin en zijn team bij Google AI het artikel BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. BERT — Bidirectional Encoder Representations from Transformers — was een fundamenteel nieuw type taalmodel dat de AI-wereld voor taalverwerking transformeerde op dezelfde manier als AlexNet dat deed voor beeldverwerking. Binnen een jaar had Google BERT geïntegreerd in zijn zoekmachine en veranderde het hoe miljarden zoekopdrachten werden verwerkt.
Het innovatieve: bidirectioneel lezen
Tot BERT las elk taalmodel tekst van links naar rechts (of rechts naar links, maar nooit beide tegelijk). GPT en zijn voorgangers voorspelden het volgende woord op basis van alle voorgaande woorden — een krachtige aanpak voor tekstgeneratie, maar niet optimaal voor taalbegrip. BERT gebruikte in plaats daarvan een bidirectionele aanpak: het las tekst in beide richtingen tegelijkertijd, waardoor elk woord zijn context kon ophalen van zowel voor als na zijn positie.
Dit werd gerealiseerd via twee trainingstaken. Masked Language Modeling (MLM): willekeurig 15% van de woorden in de invoer werden gemaskeerd, en het model moest ze voorspellen op basis van de omliggende context in beide richtingen. Next Sentence Prediction (NSP): het model moest bepalen of twee gegeven zinnen opeenvolgend in de oorspronkelijke tekst voorkwamen. Door op deze twee taken te pre-trainen op grote hoeveelheden tekst (Wikipedia en BooksCorpus) leerde BERT rijke contextafhankelijke representaties van woorden.
BERT in Google Search
In oktober 2019 kondigde Google aan dat BERT was geïntegreerd in zijn zoekmachine — de grootste verbetering aan Google Search in vijf jaar. BERT hielp Google zoekopdrachten beter te begrijpen: niet alleen de individuele zoekwoorden, maar de intentie en context achter de vraag. Zoekopdrachten met voorzetsels, bijwoorden en complexe zinsbouw werden aanzienlijk beter begrepen. De impact was direct merkbaar voor de miljarden mensen die elke dag Google gebruiken.
Pre-training en finetuning: het dominante paradigma
BERT populariseerde ook een methode die daarna de standaard werd: pre-training op grote datasets gevolgd door finetuning op specifieke taken met kleine datasets. Met slechts een paar duizend gelabelde voorbeelden kon een fijngezet BERT-model state-of-the-art prestaties bereiken op taalbegreip-benchmarks. Dit maakte geavanceerde NLP toegankelijk voor organisaties zonder enorme trainingsdatasets. Bedrijven en universiteiten begonnen BERT te gebruiken voor sentimentanalyse, vraagbeantwoording, documentclassificatie en tientallen andere taken.
BERT-varianten: een heel ecosysteem
BERT inspireerde een stortvloed aan verbeterde varianten. RoBERTa (Facebook, 2019) verbeterde het trainingsrecept. DistilBERT (HuggingFace, 2019) maakte een kleinere, snellere versie. ALBERT (Google, 2019) verminderde het geheugengebruik. XLM (Facebook, 2019) en mBERT (Google) breidden BERT uit naar meerdere talen. BERT-achtige modellen werden ingezet in juridische documentanalyse, medische diagnose-ondersteuning, financiele rapportverwerking en nagenoeg elke toepassing waarbij tekstbegrip vereist is.
Bronnen
- Devlin, J., Chang, M.W., Lee, K. & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805.
- Nayak, P. (2019). Understanding searches better than ever before. Google Blog.
- Wikipedia — BERT
- Origineel paper — arXiv