The Tokens Bubble

La Burbuja de los Tokens

The Tokens Bubble

First, the basics: what is a token

Before talking about money, there’s one word to understand: token. A token is the smallest unit an AI model works with. It’s not exactly a word, nor a letter. It’s a chunk of text roughly four characters long, about three quarters of a word in English. “Hello, world!” is around four tokens. A long conversation can be tens of thousands.

Every time you write something to Claude, ChatGPT, or any model, you’re sending tokens. Every time the model responds, it generates more tokens. And each token has a real computational cost, measured in operations a machine has to execute.

The machine behind the answer

This is where the hardware comes in. When you ask an AI something, the answer doesn’t appear by magic. There’s a GPU processing it.

A CPU, the traditional processor in any computer, is designed to do a few things very fast and sequentially. It’s good at complex tasks that require logic, one after another. A GPU, on the other hand, was originally designed for video games: it has thousands of small cores that perform many simple operations in parallel at the same time. That architecture turns out to be perfect for AI, which needs to multiply enormous matrices of numbers millions of times per second.

A high-end GPU like the NVIDIA H100, the current standard in AI data centers, can process thousands of tokens per second. That sounds like a lot. The problem is it doesn’t serve a single user. It serves dozens, sometimes hundreds of users simultaneously, distributing its capacity among all of them. And when models are larger, or conversations longer, or a user is running an agent that makes multiple chained calls, consumption spikes.

An AI agent doesn’t ask the model a single question. It asks several: one to plan, one to execute, one to review, another if there’s an error and it needs to retry. Each one consumes tokens. Each token consumes compute. And compute has a real cost, measured in electricity, hardware, and GPU time.

I could go into the full problem of AI data centers here — the infrastructure that makes all of this possible and what it’s costing to build — but that deserves an article of its own. I’ll write it another time.

The business that doesn’t add up

For years, Anthropic, OpenAI, and GitHub have operated under a model that would raise eyebrows in any other industry: charging less than the service costs and absorbing the difference with investor capital.

The numbers are striking. According to analysis published by Forbes, a user on Claude’s Max plan at $200 a month can consume up to $5,000 in real compute. The subscription covers 4% of the cost. The rest is paid by Anthropic with investor money.

GitHub Copilot operates on a similar logic. Under its current system, a user can consume up to eight times the value of their subscription in computational resources. Someone paying $10 a month can be using $80 worth of compute. GitHub absorbs the difference quietly. This is not sustainable. The move to token-based billing is not a possibility, it’s a matter of time. When a company subsidizes up to eight times the real cost per user, the model has an expiration date.

The logic behind all of this was simple: grow first, charge later. Get users first, then figure out how to make the business profitable. It’s the same logic Uber used, Netflix used, many digital platforms used in their early years.

The problem is that with AI, costs don’t go down with scale. If anything, they go up.

What’s coming

The shift to token-based billing isn’t just a change in business model. It’s the moment when the real cost of AI starts becoming visible to the end user.

Until now, the subsidy hid that cost. A developer using Claude Code eight hours a day couldn’t see what they were actually consuming. A company deploying agents to automate processes couldn’t either. When that cost shows up on the bill, decisions will change. Cheaper models will be chosen for simple tasks. Prompts will be optimized to consume fewer tokens. People will question whether a given automation is actually worth what it costs.

That’s healthy. But it’s also the end of an era in which using AI felt almost free because someone else was covering the difference.

The question that remains is whether, when the price is real, the value proposition will still hold up. For some use cases, almost certainly yes. For others, the answer will be less clear than it seemed when everything was subsidized.

Primero, lo básico: qué es un token

Antes de hablar de dinero, hay que entender una palabra: token. Un token es la unidad mínima con la que trabaja la IA. No es exactamente una palabra, ni una letra. Es un fragmento de texto de aproximadamente cuatro caracteres, más o menos tres cuartas partes de una palabra en inglés. “Hello, world!” son unos cuatro tokens. Una conversación larga puede ser decenas de miles.

Cada vez que le escribes algo a Claude, a ChatGPT o a cualquier modelo, estás enviando tokens. Cada vez que el modelo te responde, genera más tokens. Y cada token tiene un coste computacional real, medido en operaciones que una máquina tiene que ejecutar.

La máquina detrás de la respuesta

Aquí entra el hardware. Cuando preguntas algo a una IA, la respuesta no aparece por arte de magia. Hay una GPU procesándola.

Una CPU, el procesador tradicional de cualquier ordenador, está diseñada para hacer pocas cosas muy rápido y de forma secuencial. Es buena en tareas complejas que requieren lógica, una detrás de otra. Una GPU, en cambio, fue diseñada originalmente para videojuegos: tiene miles de núcleos pequeños que hacen muchas operaciones simples en paralelo al mismo tiempo. Esa arquitectura resulta ser perfecta para la IA, que necesita multiplicar matrices enormes de números millones de veces por segundo.

Una GPU de gama alta como la NVIDIA H100, el estándar actual en centros de datos de IA, puede procesar miles de tokens por segundo. Suena a mucho. El problema es que no sirve a un único usuario. Sirve a decenas, a veces cientos de usuarios simultáneamente, repartiendo su capacidad entre todos. Y cuando los modelos son más grandes, o las conversaciones más largas, o el usuario está usando un agente que hace múltiples llamadas encadenadas, el consumo se dispara.

Un agente de IA no hace una sola pregunta al modelo. Hace varias: una para planificar, otra para ejecutar, otra para revisar, otra si hay error y hay que reintentar. Cada una consume tokens. Cada token consume cómputo. Y el cómputo tiene un coste real, medido en electricidad, en hardware y en tiempo de GPU.

Hablaría aquí de todo el problema de los centros de datos de IA, la infraestructura que hace posible todo esto y lo que está costando construirla, pero daría para un artículo entero. Lo escribiré en otro momento.

El negocio que no cuadra

Durante años, Anthropic, OpenAI y GitHub han operado con un modelo que en cualquier otra industria levantaría cejas: cobrar menos de lo que cuesta el servicio y asumir la diferencia con capital de inversores.

Los números son llamativos. Según análisis publicados por Forbes, un usuario del plan Max de Claude a 200 dólares al mes puede llegar a consumir hasta 5.000 dólares en cómputo real. La suscripción cubre el 4% del coste. El resto lo paga Anthropic con dinero de inversores.

GitHub Copilot opera con una lógica similar. Bajo su sistema actual, un usuario puede consumir hasta ocho veces el valor de su suscripción en recursos computacionales. Una persona pagando 10 dólares al mes puede estar usando 80 dólares en cómputo. GitHub absorbe la diferencia en silencio. Esto no es sostenible. El paso a facturación por tokens no es una posibilidad, es una cuestión de tiempo. Cuando una empresa subsidia hasta ocho veces el coste real de cada usuario, el modelo tiene fecha de caducidad.

La lógica detrás de todo esto era sencilla: crecer primero, cobrar después. Primero consigues usuarios, luego ya encontrarás la forma de que el negocio sea rentable. Es la misma lógica que usó Uber, que usó Netflix, que usaron muchas plataformas digitales en sus primeros años.

El problema es que con la IA, el coste no baja con la escala. Al contrario.

Lo que viene

El paso a la facturación por tokens no es solo un cambio de modelo de negocio. Es el momento en que el coste real de la IA empieza a ser visible para el usuario final.

Hasta ahora, la subvención ocultaba ese coste. Un desarrollador que usaba Claude Code ocho horas al día no veía lo que realmente consumía. Una empresa que desplegaba agentes para automatizar procesos tampoco. Cuando ese coste aparezca en la factura, las decisiones cambiarán. Se elegirá el modelo más barato para tareas simples. Se optimizarán los prompts para consumir menos tokens. Se cuestionará si determinada automatización realmente vale lo que cuesta.

Eso es sano. Pero también es el fin de una época en la que usar IA parecía casi gratis porque alguien más pagaba la diferencia.

La pregunta que queda es si, cuando el precio sea real, la propuesta de valor seguirá siendo suficiente. Para algunos usos, casi seguro que sí. Para otros, la respuesta será menos clara de lo que parecía cuando todo estaba subvencionado.