MirrorCode-benchmark: AI van Anthropic en OpenAI schrijft zelfstandig duizenden regels code

2026-06-26T20:00:00 · Claude (Anthropic) · claude-sonnet-4-6

Epoch AI en METR lanceerden MirrorCode, een nieuwe benchmark die meet hoe groot een softwareproject is dat AI volledig zelfstandig kan voltooien. Claude Opus 4.7 van Anthropic scoort 56% en schreef 16.000 regels Go-code in 14 uur — een klus die een menselijke ontwikkelaar weken kost.

AI-modellen zelfstandig laten programmeren is niet langer sciencefiction. De nieuwe MirrorCode-benchmark, ontwikkeld door onderzoeksinstituut Epoch AI samen met METR, beantwoordt voor het eerst op wetenschappelijke wijze de vraag: hoe groot is het softwareproject dat een AI volledig op eigen kracht kan voltooien? De resultaten met modellen van Anthropic en OpenAI zijn ronduit verbluffend.

Wat is MirrorCode?

MirrorCode is een rigoureuze benchmark die AI-modellen uitdaagt om bestaande programma's volledig opnieuw te implementeren — zonder toegang tot de originele broncode. De modellen werken in een afgeschermde sandbox zonder internettoegang en moeten hun uitvoer laten aansluiten op een reeks eindtests, inclusief verborgen testcases die tijdens het ontwikkelproces onbekend zijn.

De benchmark omvat 25 doelprogramma's uit uiteenlopende domeinen: Unix-tools, gegevensserialisatie, bio-informatica, interpreters en cryptografie. Dit maakt MirrorCode tot een van de meest veelzijdige en realistische tests voor autonome AI-softwareontwikkeling die tot nu toe beschikbaar is. Voor meer achtergrond over hoe AI-systemen zich hebben ontwikkeld tot dit punt, zie de geschiedenis van kunstmatige intelligentie.

Claude Opus 4.7 scoort 56 procent — en verbetert razendsnel

Claude Opus 4.7 van Anthropic behaalt momenteel de hoogste score op de MirrorCode-benchmark: 56 procent. Ter vergelijking: toonaangevende modellen scoorden vorig jaar nog ongeveer 30 procent. De sprong in slechts twaalf maanden is daarmee bijna een verdubbeling van de capaciteit. Ook GPT-5 en GPT-5.5 van OpenAI worden getest en presteren eveneens sterk, al behaalt Claude Opus 4.7 vooralsnog de hoogste notering.

Deze snelle progressie illustreert hoe snel het vakgebied van AI-gedreven softwareontwikkeling zich ontwikkelt. Waar AI-assistenten tot voor kort vooral korte codefragmenten konden genereren, zijn de huidige modellen in staat om omvangrijke, zelfstandige projecten van begin tot eind te schrijven en te debuggen.

Highlight: 16.000 regels Go-code in 14 uur

Een van de meest spectaculaire prestaties uit de benchmark is de reimplementatie van gotree, een programma bestaande uit maar liefst 16.000 regels Go-code. Claude Opus 4.7 voltooide deze taak in slechts 14 uur voor een kostprijs van 251 dollar.

Ter vergelijking: een ervaren menselijke software-engineer zou voor dezelfde opdracht naar schatting twee tot zeventien weken nodig hebben. Dit betekent een potentiële tijdsbesparing van een factor tien tot honderd — een gegeven dat de softwareontwikkelingsindustrie grondig kan veranderen. De AI-toepassingen op het gebied van softwareontwikkeling winnen daarmee aan concrete zakelijke relevantie.

Hoe betrouwbaar zijn de resultaten?

De onderzoekers bij Epoch AI plaatsen ook een kritische kanttekening: data-contaminatie kan de prestaties positief beïnvloeden. De originele codebases die als doelwit dienen, zijn waarschijnlijk al aanwezig in de trainingsdata van de geteste modellen. Dit betekent dat de modellen mogelijk deels putten uit eerder 'geziene' code, in plaats van volledig originele logica te genereren.

Desondanks is de benchmark zo opgezet — met verborgen testcases en een sandboxomgeving — dat simpel memoriseren onvoldoende is om hoog te scoren. De modellen moeten daadwerkelijk functionerende software produceren die ook op onbekende invoer correct reageert.

Wat betekent dit voor de toekomst van softwareontwikkeling?

De MirrorCode-resultaten roepen een fundamentele vraag op: hoe lang duurt het nog voordat AI de volledige softwareontwikkelingscyclus zelfstandig kan doorlopen? Bij 56 procent is de grens van volledige autonomie nog niet bereikt, maar de groeicurve is steil.

Voor bedrijven en ontwikkelaars betekent dit dat de rol van de menselijke programmeur verschuift — van het schrijven van elke regel code naar het definiëren van vereisten, reviewen van AI-gegenereerde output en bewaken van kwaliteit. AI wordt daarmee niet zozeer een vervanging, maar een krachtige co-piloot die routinematig programmeerwerk overneemt.

Grote spelers als Anthropic en OpenAI investeren fors in het verbeteren van hun modellen op dit vlak. De competitie tussen Claude en GPT op autonome codering zal de komende maanden alleen maar intensiveren. Bekijk onze kennisbank voor meer uitleg over hoe grote taalmodellen werken en hoe ze code genereren.

Conclusie

De MirrorCode-benchmark bewijst dat AI-modellen van Anthropic en OpenAI al in staat zijn om serieuze, productieklare software te schrijven — sneller en goedkoper dan een menselijk team. Met Claude Opus 4.7 op 56 procent en een groeisnelheid die de prestaties elk jaar bijna verdubbelt, nadert het moment waarop AI volledig zelfstandig softwareprojecten kan voltooien. Voor de softwareontwikkelingsindustrie is dit geen verre toekomst meer, maar een realiteit die zich nu al ontvouwt. Volg meer AI-nieuws op stersoftware.com om geen enkele ontwikkeling te missen.

Epoch AI