Cuando medir tokens destruye la adopción de IA en tu empresa

17 de junio | Por Juan Merodio

Share at:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI

La semana pasada, en una sesión con directivos de TEKDI, alguien me preguntó cómo estaban midiendo la adopción de inteligencia artificial en su compañía. Me lo dijo con orgullo: «Llevamos un control de cuántas llamadas hacen los equipos a los modelos y cuántos tokens consumen al mes.» Esperaba que le dijera que era un buen comienzo.

Le dije que era una trampa perfecta.

No porque el dato sea inútil de por sí, sino porque en el momento en que una organización empieza a premiar ese número, ha dejado de medir adopción real para empezar a fabricar apariencia de adopción. Y hay un caso reciente que lo ilustra mejor que cualquier teoría.

tokens ia

Amazon lo hizo, y le salió fatal

Contenidos

Amazon creó internamente un sistema llamado Kirorank, un ranking que puntuaba a los empleados según su actividad con inteligencia artificial dentro de la plataforma Kiro: cuántas llamadas a agentes, cuánto contexto movían, cuánta actividad generaban. La lógica era seductora: si queremos acelerar la adopción, premiemos a quien más la usa.

El resultado fue el esperado, aunque no por Amazon. Algunos empleados empezaron a asignar tareas innecesarias a agentes autónomos para subir posiciones en el ranking. No para trabajar mejor. Para acumular tokens. La propia compañía tuvo que desmantelar el sistema y pedirle a su gente algo que debería haber sido obvio desde el principio: no uséis inteligencia artificial simplemente por usarla.

Lo que Amazon descubrió es una ley tan antigua como los incentivos: cuando una métrica se convierte en objetivo, deja de ser una buena métrica. Lo formuló el economista Charles Goodhart hace décadas y se sigue cumpliendo con una puntualidad irritante.

Pero aquí hay algo más profundo que la ley de Goodhart.

El error no fue el ranking. Fue elegir esa métrica

El consumo de tokens nunca fue una buena métrica para medir adopción inteligente de IA. Era, en el mejor de los casos, un proxy perezoso de actividad. Y la actividad, en una empresa, no es valor.

Un empleado que consume muchos tokens puede estar haciendo varias cosas. Puede estar formulando mal sus preguntas y necesitando diez iteraciones para llegar a una respuesta mediocre. Puede estar enviando contexto innecesario en cada llamada. Puede estar usando un agente para tareas que habría resuelto en cinco minutos con una conversación o una búsqueda en Google. O puede, simplemente, haber aprendido que el sistema premia el ruido y estar produciendo ruido de manera muy eficiente.

Es como evaluar a un conductor por los litros de gasolina consumidos. Puede haber alguna correlación débil con ciertos comportamientos, pero convertirlo en criterio de rendimiento es absurdo. Lo que importa no es cuánto combustible quemas. Es adónde llegas y a qué coste.

El profesional realmente competente con IA puede consumir muy pocos tokens precisamente porque sabe lo que hace. Sabe qué pedir, cómo estructurar el contexto, qué modelo elegir para cada tarea, cuándo detenerse y, sobre todo, cuándo directamente no usar inteligencia artificial. Ese perfil puede parecer menos «adoptador» que el que convierte cada tarea simple en una liturgia agéntica de veinte pasos. El primero hace ingeniería. El segundo hace teatro.

Y el teatro, cuando se mide, se expande.

La industria tiene todos los incentivos para confundirte

No es una coincidencia que esta confusión sea tan común. Si facturas por tokens, más tokens significan más ingresos. Si vendes infraestructura de inferencia, más llamadas significa más demanda. Si vendes la narrativa de la automatización agéntica, más bucles y más llamadas a herramientas parecen señales de sofisticación.

Para la empresa que paga la factura, el análisis debería ser el contrario: más consumo no significa más inteligencia. Muchas veces significa peor arquitectura.

La propia Anthropic lo dice con bastante claridad en su guía sobre context engineering: el objetivo es encontrar el conjunto más pequeño posible de tokens de alta señal que maximice la probabilidad de obtener el resultado deseado. No el más grande. No el más aparatoso. El más pequeño y más relevante. Esa frase debería estar en todos los comités de dirección que hoy se preguntan cómo medir la transformación digital con IA.

Porque la madurez en inteligencia artificial no consiste en presumir de millones de tokens procesados. Consiste en diseñar sistemas que necesiten menos tokens para conseguir mejores resultados.

Lo que mide el token que no debería medir

Hay otro problema con esta métrica que me parece especialmente peligroso: la percepción subjetiva.

Un estudio reciente de METR sobre desarrolladores experimentados encontró que el uso de herramientas de inteligencia artificial les hizo tardar un 19% más en completar tareas sobre repositorios que conocían bien, aunque ellos mismos creían estar siendo más rápidos. El resultado no demuestra que la IA no funcione. Demuestra algo más inquietante: que la percepción de productividad puede ser profundamente engañosa.

Si la percepción ya engaña, un contador de tokens encima engaña todavía más.

Esto lo veo constantemente en empresas que están en fases tempranas de adopción. Los equipos generan actividad, producen outputs, consumen recursos, y la dirección interpreta eso como señal de avance. Pero nadie ha parado a medir si las decisiones son mejores, si los errores han disminuido, si el tiempo real hasta un resultado correcto se ha reducido, o si el coste total tiene alguna relación razonable con el valor obtenido.

En TEKDI llevamos tiempo insistiendo en algo que parece obvio pero que pocas organizaciones practican: la adopción de IA no se mide por lo que se usa. Se mide por lo que mejora.

Qué deberías medir en su lugar

La adopción real de inteligencia artificial tiene que conectarse con resultados de negocio concretos. No con actividad de sistema.

Menos tiempo hasta una decisión correcta. Menos errores en los procesos críticos. Mejor documentación, mejor código, mejor atención al cliente. Menos repeticiones improductivas. Capacidad para abordar problemas que antes no se podían abordar. Y la métrica que pocas veces aparece en los dashboards pero que debería ser central: la relación entre el resultado obtenido y el coste real incurrido.

La empresa inteligente no celebra que sus sistemas consuman cada vez más. Se pregunta por qué lo necesitan.

Dar acceso a modelos potentes a los equipos puede ser una inversión extraordinaria. Incentivar su consumo indiscriminado es una estupidez contable. Son dos cosas distintas y se parecen mucho desde fuera, lo que las hace especialmente peligrosas de confundir.

El ranking luminoso que premia al que más ruido hace

El episodio de Amazon no es una anomalía. Es la expresión más reciente de un patrón que las organizaciones llevan décadas repitiendo: elegir una métrica visible, comparable y fácil de poner en un dashboard, convertirla en objetivo y luego sorprenderse cuando la gente optimiza para la métrica en lugar de para el resultado.

Lo hemos visto con líneas de código, con tickets cerrados, con horas facturables, con número de publicaciones, con leads generados. Siempre ocurre lo mismo. Primero la métrica parece correlacionar con algo importante. Después se convierte en objetivo. Finalmente, la organización aprende a producir la métrica aunque el objetivo original haya desaparecido.

Con la inteligencia artificial el coste es aún mayor, porque un agente puede ejecutar bucles, llamar herramientas, reintentar, resumir, descartar y volver a empezar. Desde fuera todo parece trabajo. Desde dentro puede ser una máquina de transformar presupuesto en vapor.

La inteligencia artificial necesita métricas, claro que sí. Pero no cualquier métrica. Necesita indicadores que capturen valor, calidad, fiabilidad y mejora real de procesos. Necesita gestión, no gamificación.

Lo que no necesita es otro marcador luminoso que premie al que más ruido hace.

Tienes dos caminos. Puedes seguir midiendo tokens porque es fácil, porque produce dashboards bonitos y porque da la tranquilizadora ilusión de que sabes lo que está pasando. O puedes parar, rediseñar tus métricas y empezar a medir lo que realmente importa: si la inteligencia artificial está haciendo mejores a las personas de tu organización o simplemente más activas.

Una empresa activa y una empresa mejor no son la misma cosa.

Tú decides cuál quieres ser.

Share at:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI

Juan Merodio

Juan Merodio es conferenciante internacional y emprendedor en innovación, IA y negocio. Con más de 20 años creando y liderando empresas, ha impartido más de 1.000 conferencias en España, Estados Unidos, Japón y Latinoamérica. Fundador de TEKDI y autor de 16 libros. Pero si algo lo define no es su currículum, sino su capacidad para ver lo que viene… y construirlo antes que nadie.

Compartir >>