2min Gadgets

Google introduceert efficiënter instapmodel binnen Gemini 2.5 LLM-serie en wijzigt prijzen

Google introduceert efficiënter instapmodel binnen Gemini 2.5 LLM-serie en wijzigt prijzen

Google LLC heeft vandaag een nieuwe uitbreiding aangekondigd binnen zijn reeks grote taalmodellen (LLM’s): Gemini 2.5 Flash-Lite. Dit nieuwe instapmodel is ontworpen om prompts sneller en kostenefficiënter te verwerken dan zijn voorganger, en richt zich op toepassingen met hoge volumes en lage latentie, zoals vertalingen en classificaties.

Instapmodel

De introductie van Gemini 2.5 Flash-Lite maakt deel uit van een bredere update van de Gemini 2.5-serie, die oorspronkelijk in maart werd gelanceerd. De modellen in deze serie zijn gebaseerd op een zogeheten mixture-of-experts-architectuur. Daarbij wordt per prompt slechts één van de onderliggende neurale netwerken geactiveerd, waardoor het model minder rekenkracht verbruikt dan traditionele LLM’s.

Met deze update zijn de eerdere modellen Gemini 2.5 Flash en Gemini 2.5 Pro overgegaan van preview naar algemene beschikbaarheid. Gemini 2.5 Pro, het krachtigste model in de serie, heeft bovendien een aantal prijswijzigingen ondergaan. Waar inputtokens eerder 15 cent per miljoen kostten, ligt dat tarief nu op 30 cent. Outputtokens zijn daarentegen goedkoper geworden: van $3.50 naar $2.50 per miljoen. De aparte prijsstructuur voor zogeheten ‘thinking mode’-tokens, waarbij het model meer rekentijd inzet voor hogere outputkwaliteit, is afgeschaft.

Efficiëntie

Het nieuwe instapmodel, Gemini 2.5 Flash-Lite, onderscheidt zich vooral door zijn efficiëntie. Met tarieven van 10 cent per miljoen inputtokens en 40 cent per miljoen outputtokens is het model meer dan tien keer goedkoper dan Gemini 2.5 Pro. Tegelijkertijd biedt het volgens Google een hogere kwaliteit dan het eerdere Flash-Lite-model uit de 2.0-serie, op gebieden als codering, wiskunde, wetenschap en multimodale input.

Alle modellen in de 2.5-serie zijn getraind met Google’s eigen TPUv5p AI-chips, verspreid over serverclusters met elk 8.960 chips. Deze infrastructuur, gecombineerd met nieuwe softwareoplossingen om technische knelpunten te voorkomen, stelt Google in staat om steeds krachtigere modellen sneller en schaalbaarder beschikbaar te maken.

Uiteenlopende toepassingen

Met deze update onderstreept Google zijn ambitie om zowel krachtige als toegankelijke AI-modellen te leveren voor uiteenlopende toepassingen, van complexe programmeertaken tot efficiënte verwerking van grote hoeveelheden data.