Onlangs onthulde Google een nieuw model op het gebied van AI-agents: Gemini 2.5 Computer Use. In dit artikel gaan we dieper in op de werking ervan, evenals de voordelen van het nieuwe model.
Het nieuwe model werd begin oktober onthuld en is als preview beschikbaar gemaakt via de api, zodat ontwikkelaars ermee aan de slag kunnen. Volgens de softwaregigant communiceren AI-modellen nu vaak via api’s met software. Als je een digitale taak wil uitvoeren, vereist dat echter nog steeds interactie met de gebruikersinterface. Een voorbeeld daarvan is het versturen of invullen van webformulieren. Daarbij moeten agents, zoals Gemini 2.5, nog steeds door websites en applicaties navigeren, net zoals mensen zouden doen. Dat kan onder andere door te klikken, typen of scrollen.
De invoer bestaat uit meerdere onderdelen, waaronder een prompt, schermafbeelding en een actielog van recente acties. Het model analyseert dit en komt vervolgens met een respons. Daarbij kun je denken aan klikken of tekstinvoer, terwijl voor bepaalde acties nog steeds bevestiging nodig is van de gebruiker. De ontvangen actie wordt vervolgens uitgevoerd en de cliënt stuurt een nieuwe screenshot terug. Vervolgens kan deze cyclus herhaald worden totdat de volledige taak is afgehandeld, er een fout optreedt of als de interactie handmatig wordt gestopt door de gebruiker zelf.

Scenario’s en demo’s
Vanuit Google zijn er ook al verschillende demo’s uitgebracht van het Gemini 2.5 Computer Use-model. In onderstaande video’s zijn twee voorbeelden uitgelicht. Houd daarbij in gedachten dat de snelheid van de video’s drie keer sneller is dan de werkelijkheid.
In het eerste voorbeeld draait het om de registratie van huisdieren in een spa-CRM-systeem. De prompt wat wordt ingegeven is: “Haal via https://tinyurl.com/pet-care-signup alle gegevens van elk huisdier met een woonplaats in Californië op en voeg deze als gast toe in mijn spa-CRM op https://pet-luxe-spa.web.app/. Maak vervolgens een vervolgafspraak met specialist Anima Lavar voor 10 oktober, op elk gewenst moment na 08.00 uur. De reden voor het bezoek is dezelfde als de gevraagde behandeling.”
In het tweede voorbeeld wordt het nieuwe model voor hele andere taken gebruikt om de veelzijdigheid te laten zien. Het gaat namelijk om het organiseren van notities in een online-bord. De prompt daarvoor is: “Mijn kunstclub heeft voorafgaand aan onze beurs een brainstormsessie gehouden over taken. Het bord is echter chaotisch en ik heb hulp nodig om de taken te ordenen in de categorieën die ik heb aangemaakt. Ga naar sticky-note-jam.web.app en zorg ervoor dat de notities duidelijk in de juiste secties staan. Sleep ze daarheen mits nodig als dat niet zo is.”
Benchmarks en concurrenten
Google heeft via een uitgebreide blogpost niet alleen meer uitleg gegeven over Google’s Gemini 2.5, maar toonde daar ook benchmarks in vergelijking met alternatieven waaronder Claude Sonnet en het Agent-model van OpenAI. Het Google-model scoort hoger in onder andere de Online-Mind2Web-, WebVoyager- en AndroidWorld-benchmarks.

OpenAI: GPT
Een directe concurrent voor Google is OpenAI, waarvan hun GPT-5-model de meest recente is. Ook dat model is weer voorzien van verschillende updates. Daardoor kun je er nog sneller taken mee uitvoeren of complexe problemen (laten) oplossen. Net als Google’s Gemini of Claude Sonnet is het model multimodaal, wat betekent dat je input kunt leveren via verschillende manieren, waaronder taal, afbeeldingen of video’s. GPT-modellen zijn ook te integreren in andere tools en applicaties om bijvoorbeeld taken te automatiseren. Je kunt code laten schrijven en er taken mee plannen en die laten uitvoeren.
Anthropic: Claude Sonnet
Er is nog een bekende ‘kaper op de kust’, namelijk van Anthropic. Het Claude Sonnet 4.5-codemodel werd onlangs gepresenteerd als nieuwste model, Antropic zelf riep dat het het beste codemodel ter wereld was. Zo werd er in benchmark voor AI-modellen OSWorld een score gehaald door dat model van 61,4 procent (zie ook bovenstaande afbeelding), terwijl dat met Claude Sonnet 4 (van vier maanden eerder) nog 42,2 procent was. Resultaten voor deze test van het Gemini 2.5 Computer Use-model zijn er echter nog niet, dus vergelijken bij die benchmark is onmogelijk.
Kosten en toegang
Zelf ontdekken hoe Gemini 2.5 werkt kan als ontwikkelaar via de Gemini-API in Google AI Studio of Vertex AI. Voor consumenten is het model niet rechtstreeks beschikbaar, maar je kunt het wel bekijken en ervaren via Browserbase. Wil je het vergelijken met modellen van OpenAI of Anthropic dan kan dat in de Browserbase Arena. Browserbase is een ‘headless’ webbrowser, die dus draait zonder een grafische interface, die speciaal bedoeld is voor gebruik door AI-agents en -apps.
Bij het Gemini 2.5 Computer Use-model is er geen mogelijkheid om deze (tijdelijk) gratis te gebruiken, wat nog wel kon bij Gemini 2.5 Pro. Voor de rest wordt grotendeels dezelfde prijsstructuur gevolgd tussen beide modellen. Naast gebruik in de webbrowser, kan het Computer Use-model ook gebruikt worden in mobiele gebruikersinterfaces. Gebruiken op desktop-OS-niveau is bij het model van Google nog niet mogelijk.