2024
GPT-4o, Claude 3 en Gemini 1.5
OpenAI lanceert GPT-4o met realtime tekst/beeld/spraak; Anthropic brengt Claude 3 Haiku/Sonnet/Opus uit; Google's Gemini 1.5 Pro verwerkt 1 miljoen tokens context.
2024: multimodaliteit en recordcontexten
Het jaar 2024 stond in het teken van twee grote ontwikkelingen: multimodaliteit — AI die niet alleen tekst maar ook beeld, audio en video verwerkt en produceert — en extreme contextvensters die nieuwe toepassingen mogelijk maakten. Drie modellen definieerden dit jaar: GPT-4o van OpenAI, Claude 3 van Anthropic en Gemini 1.5 Pro van Google. Ze vestigden elk een nieuwe standaard op hun respectieve sterkten.
GPT-4o: omni in actie
Op 13 mei 2024 presenteerde OpenAI GPT-4o (uitgesproken als “gee-pee-tee-four-oh”, het “o” staat voor “omni”). Het was het eerste model dat tekst, audio en afbeeldingen in realtime kon verwerken en genereren — niet als drie aparte systemen maar als één geïntegreerd systeem. GPT-4o kon gesproken taal horen, de emotie in de stem herkennen, visuele informatie verwerken en in realtime reageren met een realistische stem.
De demonstraties waren spectaculair. GPT-4o kon een wiskundige vergelijking op een whiteboard oplossen terwijl iemand er over praatte. Het kon in realtime vertalen tussen twee personen die verschillende talen spraken. Het kon een slapende persoon zachtjes wekken met gesproken woorden. En het kon zingen. De reacties op sociale media waren overweldigend; sommigen beschreven de demonstratie als de meest indrukwekkende AI-presentatie ooit.
Claude 3: drie niveaus voor drie behoeften
In maart 2024 introduceerde Anthropic de Claude 3-familie met drie modellen: Haiku (snel en goedkoop voor hoge volumes), Sonnet (gebalanceerd voor de meeste toepassingen) en Opus (het krachtigste model voor de moeilijkste taken). Claude 3 Opus overtrof GPT-4 op meerdere benchmarks, waaronder MMLU (multi-task language understanding) en HumanEval (code schrijven).
Alle Claude 3-modellen hadden een standaard contextvenster van 200.000 tokens — genoeg voor een boek van 150.000 woorden. Dit was een praktisch voordeel voor zakelijke toepassingen waarbij grote documenten geanalyseerd moesten worden. Anthropic publiceerde ook onderzoek naar “mechanistische interpretability” — pogingen om te begrijpen hoe de interne representaties van het model overeenkomen met menselijke concepten.
Gemini 1.5 Pro: een miljoen tokens context
In februari 2024 presenteerde Google Gemini 1.5 Pro met een contextvenster van één miljoen tokens — een orde van grootte meer dan vrijwel elk ander model. Dit maakte het mogelijk om een heel boek, uren audio of een grote codebase in één prompt te laden en vragen te stellen over de inhoud. Google demonstreerde dit door de volledige codebasis van zijn Apollo 11-missie (330.000 regels code) in de context te laden en vragen te beantwoorden over specifieke functies.
Gemini 1.5 Pro gebruikte een Mixture of Experts-architectuur, waarbij slechts een deel van de parameters actief was voor elke invoer. Dit maakte het efficiënt genoeg voor gebruik in Google's producten. Eind 2024 werd Gemini 1.5 Pro geïntegreerd in Google Search, Gmail, Google Docs en Workspace.
Bronnen
- Anthropic (2024). The Claude 3 Model Family: Opus, Sonnet, Haiku. Technisch rapport.
- Google DeepMind (2024). Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv:2403.05530.
- OpenAI — GPT-4o
- Wikipedia — Claude
- Google DeepMind — Gemini