De logica onder de tokenprijzen

Deel

Alle recente prijsbewegingen op een rij — en wat er structureel onder zit


Dit is de twaalfde blog in mijn reeks over de tokeneconomie. De eerdere delen vind je onderaan deze pagina.


De afgelopen weken bewoog de AI-markt aan alle kanten tegelijk. Prijzen stegen. Limieten werden aangescherpt en daarna teruggedraaid. Modellen werden uitgebracht met een verborgen prijsverhoging. Tegelijkertijd positioneren challengers als Google en xAI zich bewust onder de frontier-prijs — frontier-adjacent kwaliteit voor een fractie van de kosten. Aan de andere kant dumpten Chinese labs hun prijzen opnieuw, met de aankondiging dat het nóg goedkoper wordt zodra Chinese chips op schaal draaien.

Dit is geen chaos. Elk van deze bewegingen heeft een logica. En die logica's wijzen in tegengestelde richtingen — niet toevallig, maar structureel.

In deze blog zet ik eerst alle recente bewegingen op een rij. Daarna leg ik uit wat er onder zit.


De bewegingen — een overzicht

Anthropic: onbundelen, verhogen, beperken, verbieden, terugdraaien, opnieuw beperken

Anthropic was de meest beweeglijke partij van de afgelopen maanden. Wie de bewegingen op een rij zet, ziet geen strategisch plan maar een bedrijf dat zijn eigen grenzen aftast terwijl de vraag zijn capaciteit verbrijzelt.

November 2025 / februari 2026 — Enterprise-klanten ongebundeld. Dit is de beweging die het minst zichtbaar was maar de grootste financiële impact heeft. Anthropic begon in november 2025 stilletjes enterprise-contracten te herstructureren bij verlenging. Tegen februari 2026 was het de standaard voor alle nieuwe Enterprise-contracten. De oude structuur — Premium op $200 per seat per maand en Standard op $40, beide inclusief een bundel gesubsidieerde tokens en 10 tot 15% API-volumekorting — werd vervangen door één model: $20 per seat per maand als platformtoegang, en alle gebruik afgerekend tegen volledige standaard API-tarieven. Geen bundel. Geen korting. Klanten moeten bovendien een verplichte maandelijkse spending commitment accepteren op basis van Anthropics schatting van hun verbruik — en betalen dat bedrag ongeacht of ze de grens halen.

Voor lichte gebruikers daalt de nominale seat-fee. Voor zware gebruikers verdubbelt of verdrievoudigt de totale rekening. IT-adviseur NPI Financial stelde onomwonden dat de nieuwe structuur de total cost of ownership voor de meeste organisaties verhoogt. Enterprise-klanten die dachten dat ze AI hadden gebudgetteerd, ontdekken nu bij contractverlenging dat ze eigenlijk een variabele infrastructuurkost hebben aangeschaft.

Januari 2026 — Handhaving verbod third-party agent-toegang. Anthropic begon actief te handhaven dat third-party harnesses geen gebruik mochten maken van Claude-abonnementen via subscription-authenticatie. De reden: third-party tools optimaliseren niet voor prompt-caching, waardoor ze onevenredig veel compute verbruiken. Een enkele OpenClaw-agent kon dagelijks $1.000 tot $5.000 aan tokens verbruiken via een $20 Pro-abonnement. Meer dan 135.000 OpenClaw-instanties draaiden op dat moment. Het effectieve verbod voor OpenClaw ging in op 4 april 2026 — weken nadat de bedenker van OpenClaw naar OpenAI was vertrokken, een timing die niet onopgemerkt bleef.

Februari/maart 2026 — Gratis off-peak promotie, gevolgd door aanscherping piekuur-limieten. Eind februari stroomden miljoenen nieuwe gebruikers naar Claude nadat OpenAI een Pentagon-contract sloot dat een grootschalig gebruikersboycot uitlokte. Om de toestroom op te vangen voerde Anthropic een tijdelijke promotie in: verdubbeling van de vijf-uur limieten buiten de piekuren, geldig van 13 tot 28 maart. Tegelijkertijd bevestigde Anthropic op 26 maart dat de vijf-uur sessielimieten tijdens piekuren — 8 tot 14 uur ET — waren aangescherpt. Hetzelfde gebruik kostte tijdens kantooruren meer quota dan daarvoor. Max-abonnees rapporteerden dat hun sessielimiet van onder de 50% naar 100% sprong op één enkele prompt. De wekelijkse limieten bleven ongewijzigd, maar hoe die over de week werden verdeeld veranderde — met minder beschikbaarheid precies op de momenten dat developers het meest actief zijn.

16 april 2026 — Claude Opus 4.7 uitgebracht. De gepubliceerde tokenprijs bleef gelijk: $5 per miljoen input-tokens, $25 per miljoen output-tokens. Maar de nieuwe tokenizer produceert tot 35% meer tokens voor dezelfde tekst op technische content. Een effectieve prijsverhoging die niet op de prijspagina staat, maar wel op de factuur verschijnt. Developers rapporteerden dat Opus 4.7-sessies tot drie keer langer doorliepen dan 4.6 — waardoor de limieten nog sneller opraakten.

21 april 2026 — Claude Code tijdelijk uit het Pro-plan verwijderd. Zonder aankondiging, zonder changelog. Developers ontdekten het door de live pagina te vergelijken met een gearchiveerde versie. Binnen 24 uur teruggedraaid. Amol Avasare, Head of Growth, erkende via X dat het een A/B-test was op circa 2% van nieuwe prosumer-signups. De boodschap die bleef hangen: Anthropic zoekt actief naar de grenzen van wat het Pro-plan kan blijven bieden.

6 mei 2026 — Deal met SpaceX voor Colossus 1. Op de "Code with Claude"-conferentie in San Francisco kondigde Anthropic een overeenkomst aan met SpaceX voor toegang tot alle computercapaciteit van het Colossus 1-datacenter in Memphis: meer dan 220.000 NVIDIA GPU's, 300 megawatt, binnen een maand operationeel. Directe uitwerking: de vijf-uur rate limits van Claude Code verdubbeld voor alle betaalde abonnementen, piekuurbeperkingen voor Pro en Max permanent opgeheven, API-limieten voor Opus-modellen aanzienlijk verhoogd.

De ironie is tastbaar. Elon Musk noemde Anthropic in maart 2026 nog "misanthropic and evil." Weken later gaf SpaceX — dat xAI inmiddels volledig heeft opgeslokt — het bedrijf toegang tot zijn gehele datacenter. De verklaring is nuchter: Colossus 1 benutte slechts zo'n 11% van zijn capaciteit. Anthropic had de compute nodig. De deal draaide de ergste beperkingen terug, maar loste het structurele probleem niet op.

13 en 14 mei 2026 — Twee aankondigingen. Op 13 mei: de wekelijkse limieten worden tijdelijk met 50% verhoogd tot en met 13 juli 2026. Op 14 mei: per 15 juni wordt programmatisch gebruik — via de Agent SDK, via claude -p, via GitHub Actions, via externe tools als OpenClaw, Conductor en Zed — uit het reguliere abonnement gehaald en ondergebracht in een aparte credit-pool, afgerekend tegen volledige API-tarieven. Pro-gebruikers krijgen $20 per maand aan agent-credits. Max 5x: $100. Max 20x: $200. Credits rollen niet over. Interactief gebruik van Claude Code in de terminal blijft op het normale abonnement.

Op 15 mei volgde een gebaar dat de schaal van de spanning illustreert: Anthropic resetde handmatig alle vijf-uur en weeklimieten voor alle Pro-, Max-, Team- en Enterprise-abonnees wereldwijd.

VentureBeat noemde het het definitieve einde van het "compute arbitrage"-tijdperk: een $20 Pro-abonnement kon via externe agent-tools workflows draaien die op directe API-basis tot $500 zouden kosten. Dat tijdperk is voorbij.

Wat je nu concreet kunt doen met een Pro of Max abonnement

De limieten zijn na de SpaceX-deal verdubbeld — maar de verdubbeling maakt ze reëel, niet ruim. Een Pro-abonnement biedt circa 44.000 tokens per vijf-uur-venster: genoeg voor gerichte sessies, niet genoeg voor Claude Code als primaire IDE de hele dag. Max 5x ($100) geeft circa 225.000 tokens per venster en schakelt automatisch over van Opus naar Sonnet bij 20% resterende capaciteit. Max 20x ($200) biedt circa 900.000 tokens per venster — en is het enige abonnementsniveau waarbij serieus Opus-gebruik de hele werkdag realistisch is.

Concreet: wie met Opus 4.7 serieus agentic werkt — autonome codeersessies, meerstaps-workflows, meerdere parallelle agents — verbrandt een Pro-abonnement in minuten tot uren. Anthropic communiceert officieel 15 tot 35 uur Opus per week voor Max-abonnementen, maar dat gaat uit van licht gebruik met één bericht per vijf minuten. In de praktijk rapporteren zware gebruikers dat hun wekelijkse Opus-quota in drie tot vijf werkuren is uitgeput. Max 5x schakelt bovendien automatisch over van Opus naar Sonnet bij 20% resterende Opus-capaciteit — zodat je merkt dat je Opus-budget op is doordat het model stiller wordt, niet doordat er een melding verschijnt. Alleen Max 20x biedt realistisch de hele werkdag Opus — mits je efficiënt werkt. Een 3-agent team verbruikt circa drie keer meer tokens dan een enkele agentsessie, omdat elke instantie zijn eigen contextvenster bijhoudt en als aparte Claude-instantie draait. De infrastructuur is niet gebouwd voor de manier waarop de meest serieuze gebruikers het product nu inzetten.

OpenAI: expliciete prijsverdubbeling

April 2026 — GPT-5.5 uitgebracht. Input-tokens: van $2,50 naar $5,00 per miljoen. Output-tokens: van $15 naar $30 per miljoen. Een expliciete verdubbeling. OpenRouter's analyse laat zien dat de netto kostenstijging voor gebruikers uitkomt op 49 tot 92 procent, afhankelijk van promptlengte — deels gecompenseerd door een efficiëntere tokenizer die bij langere prompts minder completion-tokens produceert. Maar per saldo: substantieel duurder.

Microsoft: het request-model losgelaten

Per 1 juni 2026 — GitHub Copilot stapt over op token-billing. In een eerdere blog in deze reeks — De meter die lastig is te lezen — beschreef ik hoe het request-model een abstractielaag was die de werkelijke tokenkosten onzichtbaar maakte. Dat model was houdbaar zolang de frontier-prijzen laag genoeg waren om de spread te dragen. Toen Anthropic en OpenAI hun prijzen verhoogden, en agentic gebruik de tokenvoetafdruk per sessie liet exploderen, brak het systeem. GitHub's eigen CPO Mario Rodriguez erkende het: een snelle chatvraag en een meerdere uren durende autonome codesessie kosten de gebruiker hetzelfde, terwijl ze GitHub een orde van grootte anders kosten. Niet meer houdbaar.

Vanaf juni rekent GitHub de marktprijs van tokens door — dezelfde prijzen die Anthropic en OpenAI nu ook verhogen. De frontier-rekening wordt direct zichtbaar.

GitHub lanceerde begin mei een preview bill-ervaring: gebruikers en admins kunnen via hun Billing Overview-pagina nu al zien wat hun verwachte kosten zijn onder het nieuwe model, vóór de overgang op 1 juni. De reacties in de developer-community waren veelzeggend. Zware agent-gebruikers zagen hun maandelijkse kosten in de preview met een veelvoud stijgen. Een lichte chatgebruiker op Pro — 300 premium requests per maand voor simpele vragen — gaat er waarschijnlijk op vooruit: zijn $10 aan credits dekt nu effectief duizenden kleine chats. Maar een developer die Copilot als agentic IDE gebruikt, ontdekt dat zijn credits in een dag op kunnen zijn.

GitHub erkende het zelf: het subsideerde jarenlang zware gebruikers stilletjes, waarbij sommigen tot acht keer de waarde van hun abonnement verbruikten aan compute. Een developer verwoordde de reactie kernachtig: "Als ik per token moet betalen, wat is dan nog het voordeel ten opzichte van de directe API?" Het is precies de vraag die het request-model jarenlang had weten te vermijden.

Per juli 2026 — M365-prijsverhogingen. M365 E3 stijgt van $36 naar $39 per user per maand. M365 Business Standard van $12,50 naar $14. Frontline-abonnementen stijgen met tot 43%. De seat-fee stijgt terwijl de onderliggende inferentiekosten in theorie dalen. De impliciete marge groeit — voor wie niet telt, onzichtbaar.

xAI: prijsverlaging met kwaliteitssprong

30 april 2026 — Grok 4.3 gelanceerd. Input-tokens daalden van $2,00 naar $1,25 per miljoen: een verlaging van 37,5%. Output-tokens daalden van $6,00 naar $2,50: een verlaging van 58%. Tegelijkertijd steeg de kwaliteit: Grok 4.3 scoort 53 op de Artificial Analysis Intelligence Index — één punt boven Claude Sonnet 4.6 (52) — met een grote sprong in agentic prestaties. Goedkoper én beter dan zijn voorganger.

De positionering is bewust. Bindu Reddy, CEO van Abacus AI, omschreef het via X als "even slim als Sonnet 4.6 maar vijf keer goedkoper en sneller." Grok 4.3 begeeft zich daarmee niet in het gezelschap van Opus en GPT-5.5, maar vult een gat dat de frontier-labs bewust open laten: frontier-adjacent kwaliteit voor een sub-frontier prijs.

DeepSeek: dumpen en aankondigen dat het nóg goedkoper wordt

24 april 2026 — DeepSeek V4 gelanceerd. Twee varianten: V4-Pro met 1,6 biljoen parameters (49 miljard actief per token) en V4-Flash met 284 miljard parameters (13 miljard actief). Beide onder MIT-licentie. V4-Pro standaard geprijsd op $1,74 per miljoen input-tokens en $3,48 output — een factor zeven tot negen goedkoper op output dan Opus 4.7 en GPT-5.5. V4-Flash op $0,14 input en $0,28 output.

Bij de lancering verlengde DeepSeek een 75%-kortingspromotie tot 31 mei 2026, waarmee V4-Pro daalt naar $0,44 input en $0,87 output per miljoen tokens. Tijdens de promotie dus meer dan een factor 30 goedkoper op output dan GPT-5.5.

En dan de aankondiging die geopolitiek geladen is: DeepSeek verwacht de V4-Pro prijs significant verder te verlagen zodra Huawei's Ascend 950-chips in de tweede helft van 2026 op schaal worden geleverd. De tokenprijs is expliciet gekoppeld aan de opbouw van Chinese chip-infrastructuur. Dit is geen tijdelijke marketingactie. Het is een strategische koersbepaling.

De prijstabel — geverifieerd mei 2026

Frontier:

ModelInput $/MOutput $/M
Claude Opus 4.7 (Anthropic)$5,00$25,00
Claude Sonnet 4.6 (Anthropic)$3,00$15,00
GPT-5.5 (OpenAI)$5,00$30,00
GPT-5.4 (OpenAI)$2,50$15,00

Challengers (gesloten modellen):

ModelInput $/MOutput $/MNoot
Gemini 3.1 Pro Preview (Google)$2,00$12,00Frontier kwaliteit, challenger prijs
Gemini 2.5 Pro (Google, stabiel)$1,25$10,00Stabiele versie
Grok 4.3 (xAI)$1,25$2,50Westerse challenger
DeepSeek V4 Pro (standaard)$1,74$3,48MIT-licentie; na 31 mei 2026
DeepSeek V4 Pro (promotie t/m 31 mei)$0,44$0,8775% korting
DeepSeek V4 Flash$0,14$0,28MIT-licentie

Standaard API-tarieven, mei 2026. Tokenizers verschillen per lab — directe prijsvergelijking is daardoor misleidend. Zie blog 7 in deze reeks.


Wat er onder de bewegingen zit

Al die bewegingen — de verhogingen, de beperkingen, de deals, de dumps — zijn geen geïsoleerde beslissingen. Ze zijn reacties op twee structurele spanningen die elkaar versterken.

Tokens zijn schaars omdat compute schaars is

Dit is de grondlaag. En het wordt in de meeste AI-kostendiscussies onderschat.

Frontier-inferentie rust op twee kritieke componenten: GPU-clusters en high-bandwidth memory. Beide zijn structureel beperkt. Levertijden voor high-power transformatoren — de componenten die datacenters van stroom voorzien — zijn opgelopen van 24 tot 30 maanden vóór 2020 tot in sommige gevallen vijf jaar nu.

Van de circa 12 gigawatt aan datacenter-capaciteit die voor 2026 in de VS was gepland, is op dit moment slechts een derde daadwerkelijk in aanbouw. Bijna de helft is vertraagd of geannuleerd — niet vanwege gebrek aan kapitaal of vraag, maar omdat het elektriciteitsnet de aanvragen niet aankan. Alphabet, Amazon, Meta en Microsoft trekken samen meer dan $650 miljard uit voor AI-infrastructuur in 2026, maar de bedrading, de transformatoren en de stroomaansluitingen zijn er simpelweg niet op tijd.

Alle Anthropic-bewegingen van de afgelopen maanden zijn symptomen van één onderliggend probleem: er is te weinig compute om de vraag bij te houden. De rate limits, de piekuuranscherpingen, de A/B-test met Claude Code, de nooddeal met SpaceX — het zijn allemaal reacties op dezelfde fysieke grens.

En dan is agentic gebruik er nog niet volledig ingerekend. Een interactieve gebruiker verbruikt misschien enkele honderdduizenden tokens per maand. Een serieuze agentic workflow verbruikt dat in één sessie. De infrastructuur is gebouwd voor een wereld die niet meer bestaat.

De compute squeeze lijkt onvermijdelijk. Meer serieus gebruik, meer agentic gebruik, meer parallelle agents — en structureel te weinig capaciteit om dat bij te houden. De SpaceX-deal geeft Anthropic tijdelijk lucht. Maar de overeenkomsten met Amazon (bijna 1 GW eind 2026), Google en Broadcom (5 GW vanaf 2027) en Microsoft ($30 miljard aan Azure-capaciteit) laten zien hoe groot het gat werkelijk is. Je lost een tekort van die omvang niet op met één datacenter-deal. Je koopt tijd.

Frontier-AI wordt selectiever, niet breder

De tweede structurele spanning is geopolitiek van aard — en minder zichtbaar in de dagelijkse prijsdiscussie, maar minstens zo bepalend.

In april 2026 kondigde Anthropic Mythos aan: een gespecialiseerd cybersecurity-model dat kwetsbaarheden kan identificeren die menselijke onderzoekers missen. Niet publiek beschikbaar. Toegang beperkt tot een selecte groep Amerikaanse bedrijven. Kort daarna kondigde OpenAI zijn Daybreak-initiatief aan: vergelijkbare capaciteiten, eveneens beperkte toegang.

Anton Leicht analyseerde dit scherp in zijn Substack "Threading the Needle". Zijn centrale these: de gouden periode van gelijke toegang tot frontier-AI loopt ten einde. Niet omdat labs dat willen, maar omdat drie krachten dat structureel afdwingen.

1. Compute-schaarste maakt toegang tot een frontier-model een zero-sum spel: elke token voor jou is een token minder voor iemand anders. Dat verandert de machtsverhoudingen fundamenteel — je kunt niet langer als grote koper op invloed rekenen.

2. Security-overwegingen dwingen tot selectieve uitrol. Een model dat kwetsbaarheden in kritieke infrastructuur kan vinden, mag niet zomaar naar iedereen. Dat begint met genuïne veiligheidszorgen, maar de implicaties gaan verder: wie de exploits kent vóórdat het model publiek gaat, kan ze inzetten vóórdat anderen hun systemen hebben gepatcht.

3. Distillatie-risico's versterken dit verder. Een aanzienlijk deel van het succes van Chinese labs — DeepSeek, Qwen, Kimi — is mede gebouwd op het kopiëren van modeleigenschappen via API-toegang. Voor frontier-labs is onbeperkte API-toegang daarmee een bedreiging voor hun businessmodel. Verwacht strengere gebruikersverificatie, meer geopolitiek gestuurde toegangsvoorwaarden en minder vanzelfsprekende globale beschikbaarheid.

Het gevolg, zoals Leicht het formuleert: een nieuw frontier-model bereikt straks eerst de Amerikaanse veiligheidsdiensten, dan een selecte groep vertrouwde partners, dan een bredere commerciële markt — en pas daarna, als het model niet meer state-of-the-art is, iedereen. Toegang tot onbeperkte API's wordt de uitzondering, niet de norm.

VS loopt voor, China haalt in, Europa kijkt toe

Hieronder ligt een infrastructuurverschil dat de komende jaren bepalender wordt dan welk benchmarkvergelijk dan ook.

De VS heeft een structurele voorsprong in frontier-AI-modellen, maar een elektriciteitsinfrastructuur die twintig jaar nauwelijks is gegroeid. AI-vraag drijft het stroomverbruik van datacenters naar verwachting naar 9% van het totale Amerikaanse verbruik in 2030. Vergunningsprocedures voor nieuwe energiecentrales en hoogspanningsleidingen duren in de VS gemiddeld meer dan een decennium.

China heeft dit probleem anders. China genereert al meer dan twee keer zoveel elektriciteit als de VS en heeft zijn totale energieproductie het afgelopen decennium met bijna 6% per jaar laten groeien — meer dan de helft via wind, zon en waterkracht. De datacenter-capaciteit in China koerst dit jaar af op 30 gigawatt, een groei van 30% in één jaar. En DeepSeek V4 is het eerste frontier-model dat expliciet is gebouwd voor en geoptimaliseerd op Chinese chips — Huawei's Ascend 950-serie, zonder Nvidia in de keten. Als China frontier-modellen kan trainen en serveren op eigen hardware, begint het hefboomeffect van Amerikaanse exportcontroles te slinken.

Europa staat er het slechtst voor. De vijf grootste Europese datacenter-markten — Frankfurt, Londen, Amsterdam, Parijs en Dublin — zien hun tarieven in 2026 met 12% stijgen. Energieprijzen liggen structureel hoger dan in de VS of China. Regeldruk en vergunningsprocedures zijn zwaarder. Europa heeft de meest uitgesproken digitale soevereiniteitsambities, maar bouwt de fysieke infrastructuur die die soevereiniteit zou moeten ondersteunen het langzaamst uit.

Dan de modelvraag. Europa heeft één serieuze AI-lab: Mistral

Dan de modelvraag. Europa heeft één serieuze AI-lab: Mistral, opgericht in Parijs in 2023. Het bedrijf groeit snel — van $20 miljoen naar $400 miljoen ARR in één jaar, gewaardeerd op $13,8 miljard, met ASML als aandeelhouder en Accenture als distributiepartner. Technisch is Mistral competitief in het middensegment: Mistral Medium 3.5 scoort 39 op de Artificial Analysis Intelligence Index. Maar het beste Europese model scoort daarmee ruim twintig punten onder GPT-5.5 en Claude Opus 4.7 op dezelfde schaal. Op de zwaarste redeneer-benchmarks scoort Mistral Large 3 circa 44% op GPQA Diamond — tegenover 91 tot 94% voor de frontier-labs. Dat is geen kleine achterstand. Dat is een structurele kwaliteitskloof.

Mistral's echte waarde zit elders: open-weight modellen onder Apache 2.0-licentie, EU-gebaseerde infrastructuur en sterke prestaties in Europese talen. Dat is relevant voor organisaties met datagevoeligheid en compliance-eisen. Het is geen antwoord op de vraag wie de beste frontier-modellen levert.

Het resultaat is een paradox die pijn doet. Europa maakt de regels voor AI — de AI Act, de GDPR, de data-soevereiniteitseisen. Maar het heeft geen frontier-model, beperkte compute-capaciteit, een zwak elektriciteitsnet dat datacenter-bouw remt en geen chips die concurreren met Nvidia of Huawei. Zonder eigen frontier-model en zonder eigen compute heeft Europa geen onderhandelingspositie tegenover de labs die de toegang beheren. Om het in de taal van hedendaagse geopolitiek te zeggen: Europa has no cards. De afhankelijkheid van de VS — of, als alternatief, van China — wordt nu vastgelegd. Niet straks, niet als de agentic era aanbreekt. Nu, terwijl de meeste Europese organisaties nog denken dat ze tijd hebben.


Drie markten, drie logica's

Alle bewegingen hierboven zijn terug te brengen tot drie structureel verschillende markten, elk met hun eigen drijfveer.

MarktSpelersRichtingDrijfveer
FrontierAnthropic, OpenAI↑ OmhoogIPO-druk, compute-schaarste, security
Challengers (gesloten)Google, xAI, DeepSeek, Kimi↓ OmlaagEcosysteem, cloud, geopolitiek
Open-weightLlama, Qwen, Gemma, Mistral€0 marginaalSoevereiniteit, controle

Google is het opvallendste geval in de challenger-categorie. Op de Artificial Analysis Intelligence Index scoren GPT-5.5 (60), Claude Opus 4.7 (57) en Gemini 3.1 Pro Preview (57) binnen drie punten van elkaar. Qua modelkwaliteit is Google frontier. Maar Gemini 3.1 Pro kost $2,00 input en $12,00 output — minder dan de helft van GPT-5.5 op output. De reden: Gemini is voor Google een middel om cloud-adoptie te stimuleren, geen primaire winstbron richting een beursgang.

Open-weight modellen bieden vandaag wat de commerciële frontier zes tot negen maanden geleden bood — uitgebreid behandeld in blog 11. De marginale tokenprijs is nul. Geen rate limits. Geen leverancier die zijn pricing-model aanpast zodra zijn aandeelhouders dat vragen. Voor Europese organisaties die serieus nadenken over digitale soevereiniteit is dit geen compromis meer. Het is een structurele optie.


De agentic era is er al — maar voor wie?

De meeste gebruikers leven vandaag nog niet in de agentic era. De meeste AI-interacties zijn interactief: één vraag, één antwoord, beheersbaar. Agentic gebruik — waarbij AI-systemen autonoom langlopende taken uitvoeren, tools aanroepen, beslissingen nemen en resultaten produceren zonder menselijke tussenkomst — voelt voor velen nog abstract of toekomstig.

Maar dat is een kwestie van perspectief. De agentic era bestaat al. Ze bestaat bij de developer die Claude Code de hele dag als primaire IDE draait. Bij het bedrijf dat CI/CD-pipelines heeft gebouwd op autonome agent-workflows. Bij de 135.000 OpenClaw-instanties die draaiden op het moment dat Anthropic ze verbood. Bij de organisaties die hun OpenRouter-verkeer al voor 45% via Chinese modellen laten lopen omdat de frontier-prijzen voor hun agentic volume niet meer kloppen.

De agentic era is niet breed. Ze is smal en diep. Een betrekkelijk kleine groep gebruikers leeft er al volledig in — en die groep is precies de reden waarom Anthropic zijn abonnementsmodel moest herindelen, zijn compute-grens raakte, een nooddeal sloot met SpaceX en zijn third-party-beleid meerdere keren wijzigde in vier maanden.

De frontier-labs richten hun prijzen, voorwaarden en infrastructuur niet in op de gemiddelde gebruiker. Ze richten ze in op de agentic gebruiker die hun systemen nu al onder druk zet — en op de massa die daar onvermijdelijk achteraan komt.

Het prijsmodel dat nu voor de vroege agentic gebruikers wordt ingericht, is het prijsmodel dat straks voor iedereen geldt. De infrastructuur die nu wordt gebouwd — of juist niet gebouwd — bepaalt wat er over vijf jaar beschikbaar is. De geopolitieke posities die nu worden ingenomen, liggen straks vast.

Wie nu een AI-strategie maakt op basis van huidige interactieve gebruikspatronen, bouwt op een fundament dat de labs actief aan het herinrichten zijn. De agentic era is geen verre toekomst. Ze is er al — en ze trekt de rest van de markt mee, of die er klaar voor is of niet.

Alle bewegingen in deze blog — frontier omhoog, enterprise ongebundeld

Alle bewegingen in deze blog — frontier omhoog, enterprise ongebundeld, agent-workflows onbetaalbaar via abonnementen, GitHub transparant — stellen samen één vraag die organisaties lang konden ontwijken: wat levert het op?

In de gesubsidieerde fase was die vraag optioneel. De rekening was laag, experimenteren was goedkoop, en de prikkel om te meten ontbrak. Die fase is voorbij. Wie nu serieus met AI werkt, werkt met een kostenstructuur die vraagt om bewuste keuzes: welk model, voor welke taak, via welk kanaal, tegen welke prijs, met welk resultaat. AI zonder die discipline gaat vanzelf fout — niet technisch, maar bedrijfseconomisch. En met een rekening die dat fout gaan steeds sneller zichtbaar maakt.

De volgende blog gaat over de beslisarchitectuur

De volgende blog gaat over de beslisarchitectuur: hoe je concreet bepaalt welke laag je wanneer inzet, op basis van taaktype, datagevoeligheid, kwaliteitseis en kostengrens.


Deze blog maakt deel uit van een bredere reeks over AI als systeemverschuiving — van de economie van tokens tot de versnelling en wat dat betekent voor mensen en organisaties. De technische kant van AI in de praktijk beschrijft Edwin van Dillen. De bredere gedachten over organisatie, intentie en uitvoering zijn uitgewerkt op augmentedorganisation.nl, intentdriven.nl en augmentedengineering.nl.


De tokenreeks — eerder verschenen

Tokens op de meter — 23 maart 2026 Sam Altman beschreef het businessmodel openlijk: intelligentie wordt een nutsvoorziening, afgerekend per token. Deze blog introduceert de token als rekeneenheid, beschrijft de verslavingsfase waarin AI-bedrijven nu zitten — goedkoop om afhankelijkheid te bouwen — en legt uit waarom de uitgestelde rekening reëel is. Tokenefficiëntie is nu al een strategische vaardigheid.

De tokeneconomie — 24 maart 2026 Alibaba richtte de Alibaba Token Hub op: een formele business unit met de missie "tokens creëren, distribueren en toepassen". Drie lagen — foundational modellen, API-distributie, agentic platforms — vormen een verticaal geïntegreerd ecosysteem. Opmerkelijk: de tokeneconomie benoemt zichzelf, terwijl eerdere technologiegolven pas achteraf werden benoemd.

De token als meetlat — 27 maart 2026 Vier lenzen waarop bedrijven tokenverbruik meten — als factuur, als prestatiemeting, als statussymbool en als waardesignaal. Centrale conclusie: tokenefficiëntie is een proxy voor denkkwaliteit, niet voor technische vaardigheid.

SAP wordt tokenreseller — 28 maart 2026 SAP-CEO Christian Klein kondigde het einde van het abonnementsmodel aan. SAP's "AI Units" zijn onder de motorkap tokens ingekocht bij Anthropic, OpenAI en anderen. SAP is in essentie tokenreseller geworden. Systemen commoditiseren; menselijk vermogen blijft de onvervangbare differentiator.

De meter die lastig is te lezen — 7 april 2026 Drie betalingswerelden: de transparante API-wereld, de verpakte abonnementswereld en de geabstraheerde enterprise-wereld. Abonnementen zijn voor de gemiddelde gebruiker drie tot veertien keer duurder per token dan directe API-toegang. In de enterprise wrapper-wereld ontbreekt de prikkel tot tokenefficiëntie structureel.

Tokenafhankelijkheid — april 2026 Via de Black Mirror-aflevering Common People en het concept enshittification: hoe Anthropic in zes stappen laat zien hoe de uitgestelde rekening stap voor stap wordt gepresenteerd. Agentic AI verdiept de afhankelijkheid structureel.

De tokenizer als verborgen variabele — april 2026 Een token bij OpenAI is niet hetzelfde als een token bij Anthropic. En een token bij Anthropic 4.6 is niet hetzelfde als bij 4.7. Vergelijking van alle grote labs: OpenAI (tiktoken, 200k vocabulaire), Google (SentencePiece, 262k), xAI, Anthropic (proprietary, ongedocumenteerd), Microsoft (geen eigen tokenizer). De stickerprice is geen eerlijke vergelijkingsmaatstaf.

De taaltaks — 3 mei 2026 Nederlandse gebruikers betalen structureel 30 tot 35 procent meer tokens dan Engelstaligen voor dezelfde inhoud, door hogere tokenizer-fertiliteit. Bij technische content op Anthropic's Opus 4.7-tokenizer loopt dit op tot circa 90 procent. De taaltaks staat op geen enkele factuurlijn — maar hij tikt elke keer mee.

De prijs van intelligentie — 7 mei 2026 De huidige lage tokenprijs is geen marktprijs maar een strategische keuze: venture capital en hyperscalers betalen het verschil om afhankelijkheid te bouwen. Die subsidie-fase eindigt. Anthropic verschoof enterprise-klanten stilletjes naar gebruiksgebaseerde facturering. De markt beweegt naar cognitieve stratificatie in drie lagen: commodity-cognitie, enterprise frontier en strategische AI.

De Chinese AI-labs — 14 mei 2026 DeepSeek, Qwen, Kimi, GLM — Chinese labs bieden frontier-kwaliteit voor een fractie van de westerse prijs. Structurele kostenvoordelen, geopolitieke spanningen en een tokenizer die relatief gunstig omgaat met niet-Engelse talen. Maar: Chinese wetgeving volgt het model waar het ook naartoe gaat.

De teller staat stil — 18 mei 2026 Open-weight modellen bieden vandaag wat de commerciële frontier zes tot negen maanden geleden bood. Lokale inferentie telt geen tokens. De drie wegen — westerse frontier, Chinese commerciële modellen, open-weight — verdienen elk een serieuze afweging.


Dit stuk is gemaakt samen met Claude (Anthropic) en NotebookLM (Google). De gedachten, posities en interpretaties zijn van mij.

Lees meer