Februari 2025

Claude 3.7 Sonnet en OpenAI o3

Anthropic introduceert Claude 3.7 Sonnet met 'uitgebreid denken'; OpenAI's o3 behaalt menselijk niveau op wiskundige en wetenschappelijke benchmarks.

Redenerende modellen: de volgende stap

Februari 2025 markeerde de brede doorbraak van redenerende AI-modellen — systemen die niet alleen antwoorden geven maar ook hun denkproces zichtbaar maken en daarmee aanzienlijk beter presteren op complexe taken. Twee modellen domineerden dit moment: Claude 3.7 Sonnet van Anthropic en het volledig uitgebrachte o3 van OpenAI. Beiden vertegenwoordigden een fundamentele verschuiving in hoe taalmodellen met problemen omgaan.

Claude 3.7 Sonnet: uitgebreid denken

In februari 2025 lanceerde Anthropic Claude 3.7 Sonnet, het eerste model in de Claude-familie met ingebouwd extended thinking (uitgebreid denken). Het model kon, wanneer geactiveerd, een interne redeneer-keten produceren vóór het definitieve antwoord. Deze denkketen was zichtbaar voor de gebruiker en kon duizenden tokens lang zijn, vergelijkbaar met hoe een mens hardop denkt bij het oplossen van een complex wiskundig of logisch probleem.

Claude 3.7 Sonnet domineerde onmiddellijk de coderingsbenchmarks. Op SWE-bench Verified, een maatstaf voor het oplossen van echte GitHub issues, behaalde het een score van meer dan 60% — een grote sprong ten opzichte van eerdere modellen. Op wiskundige benchmarks (MATH-500, AIME) overtrof het zijn voorganger aanzienlijk. Het werd het favoriete model voor software-engineers, wetenschappers en iedereen die met complexe redeneerprobleem werkte.

OpenAI o3: menselijk niveau op benchmarks

OpenAI had zijn o-serie — modellen geoptimaliseerd voor redeneren — in december 2024 aangekondigd en o3 volledig uitgebracht in begin 2025. De prestaties waren verbijsterend. Op ARC-AGI, een benchmark ontworpen om te meten of AI menselijke flexibele redenering bezit, behaalde o3 een score van 87,5% — boven de menselijke drempel van 85%. Op de International Mathematics Olympiad (IMO) haalde o3 een score op gouden-medailleniveau: het loste vier van zes problemen correct op, een prestatie die tot dan toe als exclusief menselijk werd gezien.

Francois Chollet, de ontwerper van ARC-AGI, erkende dat o3 de benchmark “doorbrak” op een manier die hij niet had verwacht. Dit leidde tot hernieuwde discussie over de nabijheid van AGI (Artificial General Intelligence). Sam Altman, CEO van OpenAI, tweette dat “AGI misschien nabij was”, wat opnieuw een debat losbarstte over definities en verwachtingen.

Reinforcement learning als sleutel

Zowel DeepSeek-R1, Claude 3.7 en OpenAI o3 hadden gemeen dat ze reinforcement learning gebruikten om redeneergedrag te versterken. In plaats van puur gesuperviseerd te leren van menselijke voorbeeldantwoorden, leerden ze van beloningssignalen: correcte antwoorden op wiskundige en logische problemen werden beloond, incorrecte niet. Dit gaf modellen een prikkel om interne verificatiestappen te ontwikkelen, alternatieve oplossingsroutes te verkennen en fouten te corrigeren vóór het eindantwoord.

Bronnen

Anthropic (2025). Claude 3.7 Sonnet. Blog-aankondiging.
OpenAI (2025). OpenAI o3 and o4-mini System Card.
Chollet, F. (2025). ARC-AGI-2: A New Evaluation of AI Reasoning. Blog.
Anthropic — Claude 3.7 Sonnet
OpenAI — o3

Claude 3.7 Sonnet en OpenAI o3

Redenerende modellen: de volgende stap

Claude 3.7 Sonnet: uitgebreid denken

OpenAI o3: menselijk niveau op benchmarks

Reinforcement learning als sleutel

Bronnen

Ster Software

Explore

About

Legal