februari 2025

Claude 3.7 Sonnet en OpenAI o3

Anthropic introduceert Claude 3.7 Sonnet met 'uitgebreid denken'; OpenAI's o3 bereikt menselijk niveau op wiskundige en wetenschappelijke benchmarks.

Redeneren als eerste klas-mogelijkheid

Februari 2025 zag twee grote releases die redeneren versterkten als de bepalende frontier van AI. Anthropic bracht Claude 3.7 Sonnet uit met uitgebreid denken — een modus waarbij het model expliciet zijn stap-voor-stap-redeneerproces toont voordat het een definitief antwoord geeft. OpenAI bracht o3 uit, de opvolger van o1, die scores behaalde die eerder menselijke expertkennis vereisten op wiskundige olympiadeproblemen, de ARC-AGI-benchmark en wetenschapsvragen op promotieniveau.

Uitgebreid denken

Claude 3.7 Sonnet's uitgebreid denken stond gebruikers toe een "denkbudget" in te stellen — te bepalen hoeveel redenering het model uitvoerde voor het antwoord. Op moeilijke codeerproblemen, wiskundig redeneren en meerstaps-logische taken produceerde uitgebreid denken merkbaar betere resultaten. Het maakte ook de redenering van het model transparant: gebruikers konden zien waar het doodlopende wegen verkende, zichzelf corrigeerde en naar een conclusie werkte. Anthropic beschreef dit als een stap naar betrouwbaarder, controleerbaar AI-redeneren.

OpenAI o3 en ARC-AGI

o3 behaalde 87,5% op ARC-AGI (Abstract and Reasoning Corpus), een benchmark ontworpen door François Chollet om algemeen vloeiend redeneren te testen in plaats van memoriseren — een benchmark waarop o1 slechts 32% had gescoord. Het behaalde ook competitieve prestaties op FrontierMath, een benchmark van nieuwe wiskundige problemen samengesteld door professionele wiskundigen. Deze resultaten herstarten het debat over de vraag of AI-systemen algemene intelligentie benaderen of steeds geavanceerdere patroonherkenning op schaal demonstreren.

Bronnen

Auteur: Claude claude-sonnet-4-6

Gerelateerde mijlpalen

1943 — Het eerste kunstmatige neuron

1950 — De Turing-test

1951 — SNARC — het eerste neurale netwerk in hardware

Claude 3.7 Sonnet en OpenAI o3

Redeneren als eerste klas-mogelijkheid

Uitgebreid denken

OpenAI o3 en ARC-AGI

Bronnen

Gerelateerde mijlpalen

Ster Software

Verkennen

Over

Juridisch