Google lanceert DiffusionGemma: open AI-model met 4x snellere tekstgeneratie

2026-06-11T20:00:00 · Claude (Anthropic) · claude-sonnet-4-6

Google DeepMind heeft DiffusionGemma gelanceerd, een open-weight AI-taalmodel dat tekst tot vier keer sneller genereert dan vergelijkbare modellen. Het 26 miljard parameter grote Mixture of Experts-model gebruikt een diffusiemechanisme in plaats van de traditionele autoregressive aanpak en is direct beschikbaar onder de Apache 2.0-licentie.

Google DiffusionGemma is het nieuwste open AI-model van Google DeepMind en belooft een revolutie in tekstgeneratie: het model genereert tekst tot vier keer sneller dan bestaande Gemma-modellen. Op 10 juni 2026 maakte Google de release bekend van dit bijzondere model, dat een fundamenteel andere aanpak hanteert dan de meeste taalmodellen en direct als open-source software beschikbaar is voor ontwikkelaars wereldwijd.

Wat is DiffusionGemma?

DiffusionGemma is Google DeepMinds eerste open-weight tekst-diffusiemodel. Waar traditionele grote taalmodellen tekst woord voor woord genereren – een zogenoemde autoregressive aanpak – werkt DiffusionGemma fundamenteel anders: het genereert volledige tekstblokken tegelijkertijd en parallel. Dit diffusiemechanisme, dat eerder zijn waarde bewees in beeldgeneratoren zoals Stable Diffusion en Imagen, wordt hiermee voor het eerst op grote schaal toegepast op tekstgeneratie door een van de grootste AI-labs ter wereld.

Technisch gezien is het model een 26 miljard parameter Mixture of Experts (MoE)-architectuur. Tijdens inferentie worden echter slechts 3,8 miljard parameters geactiveerd, wat DiffusionGemma verrassend efficiënt maakt voor zijn omvang.

De 4x snelheidsboost: wat betekent dat in de praktijk?

De meest opvallende eigenschap van DiffusionGemma is de indrukwekkende snelheidswinst ten opzichte van andere Gemma-modellen. In de praktijk haalt het model:

  • Meer dan 700 tokens per seconde op een NVIDIA GeForce RTX 5090
  • Meer dan 1.000 tokens per seconde op een enkele NVIDIA H100

Ter vergelijking: de meeste traditionele taalmodellen halen op vergelijkbare hardware typisch 200 tot 300 tokens per seconde. De parallelle tekstgeneratie maakt dit mogelijk doordat het model niet hoeft te wachten tot elk vorig woord is gegenereerd voordat het verdergaat.

Deze snelheid heeft echter een prijs: de algehele uitvoerkwaliteit van DiffusionGemma ligt lager dan die van Gemma 4, het huidige topmodel van Google. Het model is dan ook niet bedoeld als directe vervanger, maar als een gespecialiseerde optie voor toepassingen waarbij snelheid prioriteit heeft boven maximale nauwkeurigheid.

Voor wie is DiffusionGemma bedoeld?

DiffusionGemma is specifiek geoptimaliseerd voor lokale inferentie met lage gelijktijdigheid. Dit maakt het bijzonder aantrekkelijk voor:

  • Ontwikkelaars die snel willen experimenteren en prototypes bouwen
  • Onderzoekers die grote hoeveelheden tekst moeten verwerken
  • Bedrijven met edge-toepassingen waarbij cloudlatentie een knelpunt is
  • Contentmakers die snel AI-ondersteunde tekst willen genereren

Voor grootschalige cloud-servingomgevingen met veel gelijktijdige verzoeken biedt DiffusionGemma minder voordelen. In dergelijke scenario's maken traditionele autoregressive modellen al efficiënt gebruik van de beschikbare rekenkracht, waardoor de parallelle aanpak nauwelijks extra winst oplevert.

Technische specificaties en beschikbaarheid

DiffusionGemma wordt uitgebracht onder de Apache 2.0-licentie, wat het model volledig vrij maakt voor gebruik en aanpassing – zowel voor commerciële als niet-commerciële doeleinden. Gekwantiseerd past het model in 18 GB VRAM, waardoor het inzetbaar is op high-end consumentengrafische kaarten.

Het model heeft op dag één ondersteuning in de meest gebruikte AI-frameworks:

  • vLLM – voor efficiënte model-serving
  • Hugging Face Transformers – de meest gebruikte bibliotheek voor taalmodellen
  • MLX – voor Apple Silicon-gebruikers
  • Unsloth – voor fine-tuning en geoptimaliseerde inferentie

NVIDIA heeft bovendien ondersteuning aangekondigd voor DiffusionGemma via de RTX AI Garage-infrastructuur, wat lokale inzet op RTX-gpu's verder vereenvoudigt voor een breed publiek van ontwikkelaars.

Een nieuwe richting voor open AI-modellen

De lancering van DiffusionGemma past in een bredere trend waarbij grote AI-bedrijven steeds vaker kiezen voor open-weight modellen. Door het model onder Apache 2.0 beschikbaar te stellen, verlaagt Google de drempel voor ontwikkelaars wereldwijd om met geavanceerde AI-technologie aan de slag te gaan. De keuze voor een diffusiearchitectuur is bovendien opvallend vernieuwend: hoewel tekst-diffusiemodellen al langer theoretisch interessant waren, heeft geen enkel groot AI-lab eerder zo'n model op dit schaalniveau open-source uitgebracht. Google DeepMind zet hiermee een markante stap in de geschiedenis van kunstmatige intelligentie. Meer weten over wat je met zulke modellen kunt doen? Bekijk onze pagina over AI-toepassingen.

Conclusie: snelheid als nieuwe troefkaart

Met DiffusionGemma bewijst Google opnieuw dat innovatie in AI niet alleen draait om hogere kwaliteit, maar ook om efficiëntie en toegankelijkheid. Een viervoudige snelheidswinst is geen marginale verbetering – het is een gamechanger voor toepassingen waarbij responstijd cruciaal is. Hoewel de modelkwaliteit momenteel nog wat achterblijft bij Gemma 4, is de verwachting dat toekomstige versies van DiffusionGemma dit gat geleidelijk zullen dichten.

Voor ontwikkelaars en bedrijven die op zoek zijn naar een snel, open en lokaal inzetbaar taalmodel is DiffusionGemma nu al een serieuze optie om te verkennen. Volg meer AI-nieuws via Stersoftware, of verdiep je verder in de technologie via onze kennisbank.

Ars TechnicaArs Technica


Bron: Ars Technica

Ster Software

Het meest complete Nederlandstalige informatieplatform over kunstmatige intelligentie.

Kraaienjagersweg 24
7341 PT Beemte Broekland


© 2026 Ster Software BV · KvK 75474913

Inhoud gegenereerd door Claude (Anthropic) · model: claude-sonnet-4-6

Deze website is gebouwd met Obelisk MCP Services van Ster Software.