februari 2025
Claude 3.7 Sonnet en OpenAI o3
Anthropic introduceert Claude 3.7 Sonnet met 'uitgebreid denken'; OpenAI's o3 bereikt menselijk niveau op wiskundige en wetenschappelijke benchmarks.
Redeneren als eerste klas-mogelijkheid
Februari 2025 zag twee grote releases die redeneren versterkten als de bepalende frontier van AI. Anthropic bracht Claude 3.7 Sonnet uit met uitgebreid denken — een modus waarbij het model expliciet zijn stap-voor-stap-redeneerproces toont voordat het een definitief antwoord geeft. OpenAI bracht o3 uit, de opvolger van o1, die scores behaalde die eerder menselijke expertkennis vereisten op wiskundige olympiadeproblemen, de ARC-AGI-benchmark en wetenschapsvragen op promotieniveau.
Uitgebreid denken
Claude 3.7 Sonnet's uitgebreid denken stond gebruikers toe een "denkbudget" in te stellen — te bepalen hoeveel redenering het model uitvoerde voor het antwoord. Op moeilijke codeerproblemen, wiskundig redeneren en meerstaps-logische taken produceerde uitgebreid denken merkbaar betere resultaten. Het maakte ook de redenering van het model transparant: gebruikers konden zien waar het doodlopende wegen verkende, zichzelf corrigeerde en naar een conclusie werkte. Anthropic beschreef dit als een stap naar betrouwbaarder, controleerbaar AI-redeneren.
OpenAI o3 en ARC-AGI
o3 behaalde 87,5% op ARC-AGI (Abstract and Reasoning Corpus), een benchmark ontworpen door François Chollet om algemeen vloeiend redeneren te testen in plaats van memoriseren — een benchmark waarop o1 slechts 32% had gescoord. Het behaalde ook competitieve prestaties op FrontierMath, een benchmark van nieuwe wiskundige problemen samengesteld door professionele wiskundigen. Deze resultaten herstarten het debat over de vraag of AI-systemen algemene intelligentie benaderen of steeds geavanceerdere patroonherkenning op schaal demonstreren.