Alibaba trainde AI-model stiekem met 28,8 miljoen Claude-gesprekken van Anthropic

2026-06-25T14:00:00 · Claude (Anthropic) · claude-sonnet-4-6

Alibaba zou in het geheim 28,8 miljoen gesprekken met Anthropics Claude-model hebben gebruikt om zijn eigen AI te trainen. Dit schendt de gebruiksvoorwaarden van Anthropic en zet de discussie over model-distillatie en AI-intellectueel eigendom scherp op de kaart.

Alibaba heeft stiekem 28,8 miljoen gesprekken met Claude — het grote taalmodel van het Amerikaanse AI-bedrijf Anthropic — gebruikt om zijn eigen AI-model te trainen. Dat meldt Tweakers op basis van nieuwe onderzoeksbevindingen. De actie schendt de gebruiksvoorwaarden van Anthropic en werpt opnieuw fundamentele vragen op over model-distillatie, intellectueel eigendom en eerlijke concurrentie in de wereld van kunstmatige intelligentie. Bekijk voor meer achtergrond ook de geschiedenis van kunstmatige intelligentie.

Wat is er precies gebeurd?

Onderzoekers ontdekten dat Alibaba op grote schaal de Claude API van Anthropic heeft gebruikt om synthetische trainingsdata te genereren. In totaal gaat het om maar liefst 28,8 miljoen conversaties die via de API werden opgehaald en vervolgens ingezet als trainingsmateriaal voor een eigen Alibaba-taalmodel. Dit proces staat in de AI-wereld bekend als model-distillatie: een techniek waarbij de uitvoer van een krachtig, duur model wordt gebruikt om een goedkoper of kleiner model te trainen en zo de prestaties van het grote model na te bootsen.

Het probleem? Anthropic verbiedt dit expliciet in zijn gebruiksvoorwaarden. Daarin staat dat de uitvoer van Claude niet mag worden gebruikt om concurrerende AI-modellen te trainen of te verbeteren. Door op deze schaal — bijna 29 miljoen gesprekken — gebruik te maken van Claude-uitvoer heeft Alibaba die voorwaarden structureel en op grote schaal geschonden.

Waarom is dit zo opvallend?

Model-distillatie is op zichzelf geen nieuwe techniek. Veel kleinere bedrijven en onderzoekers hebben in het verleden modellen getraind met data afkomstig van grote frontier-modellen zoals GPT-4 of Claude. Wat deze zaak echter uitzonderlijk maakt, is de enorme schaal van 28,8 miljoen gesprekken en het feit dat het om een techgigant als Alibaba gaat — een bedrijf met miljarden aan middelen dat zonder meer een eigen AI-infrastructuur zou kunnen opbouwen.

Alibaba ontwikkelt met zijn Qwen-modellenreeks al geruime tijd serieuze AI-concurrenten voor de westerse markt. Qwen-modellen presteren op meerdere benchmarks uitstekend en worden door de internationale AI-gemeenschap gezien als een van de sterkste open-source alternatieven. Het gebruik van Anthropics Claude-data zou de ontwikkeling van deze modellen aanzienlijk hebben versneld, zonder dat Alibaba daarvoor de volledige prijs — in geld én in rekenkracht — heeft betaald.

De reactie van Anthropic en de bredere impact

Anthropic heeft zwaar geïnvesteerd in de ontwikkeling van Claude. Het bedrijf, opgericht door voormalige OpenAI-medewerkers, positioneert zich als een veiligheidsgerichte AI-organisatie en heeft miljarden opgehaald van investeerders zoals Google en Amazon. Wanneer concurrenten — zeker grote spelers als Alibaba — de vruchten plukken van dat onderzoek zonder te betalen of bij te dragen, raakt dat direct het businessmodel en de innovatieprikkel van bedrijven als Anthropic.

De bredere implicatie is ook zorgwekkend voor de hele AI-industrie. Als het voor grote partijen lucratief en relatief risicoloos is om via API-gebruik massaal trainingsdata te oogsten, ondergraaft dat de investeringsbereidheid in dure, grondige AI-ontwikkeling. Kleine en middelgrote AI-labs die eerlijk spel spelen, kunnen simpelweg niet concurreren met partijen die heimelijk van hun werk profiteren. Lees meer over de impact van AI op verschillende sectoren in ons overzicht van AI-toepassingen.

Model-distillatie: de grens tussen innovatie en diefstal

De juridische en ethische grenzen rond model-distillatie zijn nog lang niet uitgekristalliseerd. Veel AI-bedrijven verbieden het gebruik van hun modeluitvoer voor training van concurrerende systemen, maar handhaving is moeilijk. Je kunt immers niet altijd zien waar trainingsdata vandaan komt. Detectie gebeurt doorgaans via statistische vingerafdrukken in de uitvoer of doordat modellen bepaalde eigenaardigheden van het bronmodel overnemen — soms letterlijk dezelfde fouten of formuleringen.

In dit geval lijkt de detectie te zijn gelukt, wat aantoont dat grote AI-bedrijven steeds verfijndere methodes ontwikkelen om misbruik van hun modellen op te sporen. Toch blijft de vraag of er juridische stappen volgen. Tot op heden zijn er weinig precedenten voor rechtszaken specifiek over model-distillatie, al groeit de druk op wetgevers — met name in de EU en de VS — om hier duidelijke kaders voor te scheppen.

Conclusie: eerlijke AI-concurrentie staat onder druk

De onthulling dat Alibaba bijna 29 miljoen Claude-gesprekken stiekem inzette als trainingsdata is meer dan een geïsoleerd incident. Het is een symptoom van een groeiende spanning in de AI-industrie: wie betaalt voor de dure fundamenten waarop anderen vrijelijk voortbouwen? Naarmate AI-modellen krachtiger en commercieel waardevoller worden, zullen conflicten over intellectueel eigendom, API-gebruik en eerlijke concurrentie alleen maar toenemen. Anthropic en zijn branchegenoten zullen hun detectie- en handhavingsmechanismen verder moeten aanscherpen om hun innovatie te beschermen. Blijf op de hoogte via meer AI-nieuws of verdiep je verder in onze kennisbank.

Tweakers

Bron: Tweakers

Alibaba trainde AI-model stiekem met 28,8 miljoen Claude-gesprekken van Anthropic

Wat is er precies gebeurd?

Waarom is dit zo opvallend?

De reactie van Anthropic en de bredere impact

Model-distillatie: de grens tussen innovatie en diefstal

Conclusie: eerlijke AI-concurrentie staat onder druk

Ster Software

Verkennen

Over

Juridisch