19 mei 2026

Tokenmaxxing: waarom Salesforce $300M aan Anthropic uitgeeft (en jouw budget straks ook ontploft)

Salesforce $300M aan Anthropic, Uber door zijn jaarbudget heen in april, een 4-mans startup die $125k per maand verbrandt. Waarom tokenkosten zo hard stijgen en hoe je je AI-architectuur inricht zodat je CFO niet panikeert.

Salesforce gaat dit jaar circa $300 miljoen uitgeven aan Anthropic-tokens. Uber zat in april al door zijn jaarbudget voor AI heen. Een Silicon Valley-startup van vier man tikt $125k per maand af bij Anthropic. Het tokenbudget is het nieuwe rekencentrum-budget — en bijna iedereen onderschat het.

Salesforce: $300 miljoen, en dat is nog maar het begin

Op de All-In podcast vertelde Marc Benioff vorige week dat Salesforce dit jaar op koers ligt voor zo'n $300 miljoen aan Anthropic-tokens. Ter context: dat is ongeveer 4,5% van de $6,7 miljard die Salesforce vorig jaar uitgaf aan cost of revenues — de pot waar alle third-party tech-leveranciers uit betaald worden. Eén AI-leverancier neemt nu een serieuze hap.

Het overgrote deel gaat naar coding agents. "These coding agents are awesome," zei Benioff. "Everything's going to be cheaper to make. It's more efficient. I can do things that I just could not do before." De ROI rechtvaardigt de uitgaven — voorlopig. Maar in dezelfde zin liet hij doorschemeren dat hij Salesforce wil spenen van zo'n exclusieve afhankelijkheid van Anthropic:

"The vast majority of those tokens don't need to go to Anthropic. There needs to be some intermediary layer that's saying, oh, that one has to go to Anthropic, but these ones can be handled by smaller models."

Benioff speculeerde dat "een hot new company" zou opduiken om dat te bouwen. Die bestaat al: OpenRouter haalde recent $120 miljoen op bij een Alphabet-fonds, op een waardering van $1,3 miljard. Wij schreven eerder over Cortecs.ai als Europees, GDPR-native alternatief voor diezelfde router-categorie.

Uber: jaarbudget op in april

Salesforce is niet alleen. Uber zat in april 2026 al door zijn AI-jaarbudget heen. De interne post-mortem die naar buiten lekte was niet "we hebben te weinig begroot", het was "we hebben niet begrepen wat een agent kost zodra hij vaker dan twee keer per ticket terugkomt". Een loop met drie tool-calls en een retry-strategie kan in productie tien tot vijftien keer duurder uitvallen dan dezelfde flow als single-shot prompt.

Helloprint, Swan en de $125k-startup

De getallen schalen mee met het bedrijf:

Helloprint draait €80M omzet en kwam onlangs naar buiten met €25k aan jaarlijkse AI-kosten — bescheiden, maar gekoppeld aan een reductie van ~300 naar ~120 FTE. De tokens zijn hier letterlijk een substitutie voor mensen.
Swan AI, een AI-fintech, geeft naar verluidt $113k per maand uit aan Anthropic. Dat is $1,3M per jaar voor één leverancier, in één bedrijf.
Een Silicon Valley-startup met een team van vier man tikt $125k per maand af bij Anthropic. Per persoon is dat $375k aan tokens per jaar. Dat is meer dan het salaris.
Jensen Huang noemde recent zonder blikken "$250k per jaar aan AI-tools" voor zijn productiefste engineers. Solberg's CEO ging er overheen met de opmerking dat zijn team $4M per maand aan tokens verbrandt.

Anthropic zit volgens recente cijfers op een run rate richting $30 miljard. Dat geld komt ergens vandaan. Het komt uit deze bedrijven.

Wat hier eigenlijk gebeurt

Drie dingen lopen tegelijk:

1. Het budgetmodel klopt niet meer. AI-budgetten worden nog gepland als SaaS-budgetten — een vast bedrag per seat per maand. Maar agent-tokens schalen met workload, niet met seats. Eén engineer met een goed werkende Claude Code-loop kan in een week meer tokens verstoken dan een heel team in een maand.

2. De ROI maskeert de inefficiëntie. Benioff heeft gelijk: deze agents zijn awesome, en ze maken werk goedkoper. Dat is precies waarom niemand de tokenuitgaven hard challenged. Zolang elke €1 token ergens €3 menselijke arbeid uitspaart, voelt het als een goede deal. Maar dat is geen reden om alles naar het duurste model te sturen.

3. Routering wordt een eigen vakgebied. Niet elke prompt hoort bij Sonnet 4.5. Een classificatie-stap kan prima bij Haiku of een lokale Qwen. Een schrijfagent voor saaie e-mails kan op een goedkoper Gemini-model. De "intermediary layer" die Benioff beschreef is geen toekomstmuziek — die bouwen wij voor klanten in n8n of in OpenClaw, met routing-regels op basis van taak, gevoeligheid en kostenplafond.

De Ramp AI Index in context

De Ramp AI Index liet recent zien dat 50,4% van Amerikaanse bedrijven inmiddels een betaald AI-abonnement heeft, en dat de bestedingen elk kwartaal hard stijgen. Wat de index niet laat zien is hoeveel daarvan agent-tokens zijn versus chat-seats. Vermoedelijk groeit het token-deel sneller dan elk ander deel — omdat agents per definitie meer tokens consumeren dan een mens die af en toe een chat opent.

Hoe wij hier praktisch mee omgaan

Een paar dingen die we standaard inbouwen zodra een agent productie draait:

Per-tool en per-run cost tracking in de orchestration laag (n8n of een Python-pipeline). Niet alleen $-totalen aan het einde van de maand, maar per tool-call, per agent-stap. Dan zie je dat één retry-storm 80% van je weekfactuur kan veroorzaken.
Model-selectie als configuratie, niet als hardcode. Een classificatie-stap, een extractie-stap en een eindredactie-stap zijn drie verschillende kostencategorieën en moeten ook drie verschillende modellen kunnen aanroepen. Switchen tussen GPT-5-mini, Claude Haiku, en een lokale Qwen via Cortecs of OpenRouter mag geen refactor zijn.
Een hard kostenplafond per agent per dag. Geen circuit breaker = open kraan. Voor langlopende loops bouwen we standaard een ceiling in die de agent stopt of degradeert naar een goedkoper model zodra er een drempel wordt gehaald.
On-prem voor wat repeterend en gevoelig is. Voor de meeste klanten zit 70-80% van de tokens in saai, repeterend werk dat prima op een lokale Llama of Qwen kan via OpenClaw. Niet voor het wow-werk — voor de bulk eronder.

Tot slot

De ironie van Benioff's quote — "I think that's just the moment of time we're in right now" — is dat hij gelijk heeft, maar pas zodra er een routeringslaag tussen zit. Tokens worden niet goedkoper omdat Anthropic ze goedkoper maakt. Ze worden goedkoper omdat je leert om de juiste prompt naar het juiste model te sturen.

CFO's hebben nu nog geen rode pen aangezet bij het AI-budget. Dat is een kwestie van tijd. Wie nu zijn architectuur al inricht op modelflexibiliteit — in plaats van blind alles naar één leverancier te sturen — is straks degene die zonder paniek de bocht door kan.