Antes de comenzar a leer, te recomiendo que tengas en mente algo de contexto sobre cómo ServiceNow y Uber están usando IA.
Lo que vas a leer a continuación son algunas ideas crudas que se me han ocurrido mientras me paseo por las calles de Nueva York y Brooklyn los últimos días:
Primero, las empresas sí están adoptando la tecnología. Pero todavía estamos en el punto de la línea del tiempo en que tecnología y proveedor son términos intercambiables en la misma conversación. Si quieres verlo en la línea de tiempo, estamos todavía en el momento en el que “smartphone” era el término que usábamos para referirnos a la categoría de dispositivos que podían hacer más que llamadas: iPhone, BlackBerry, cualquier Android y cualquier cosa que haya estado intentando hacer Microsoft en su momento. Hoy en día, es claro que hay dos opciones en el mercado: iPhone y Samsung. La cosa es que ya nadie se refiere a estas cosas como “smartphones”. Son teléfonos. Aunque hagan mucho más que llamadas. Y creo que lo mismo va a pasar con los modelos. Hoy hablamos de Codex vs Claude Code. En 5 años o menos eso no va a importar, si no es que ya no importa.
Segundo, el modelo de negocio actual no está funcionando y va a tener que repensarse, probablemente en varios niveles. Anthropic y OpenAI están vendiendo tokens, y el precio actual es demasiado bajo. Lo están intentando corregir, y van a continuar subiendo sus precios hasta que noten que la demanda comienza a contraerse. Confirmo esto porque las empresas todavía no tienen suficientes incentivos para ponerle límites adecuados de uso a sus empleados. Por eso ServiceNow y Uber se mamaron sus presupuestos de tokens del año en 5 meses.
Los proveedores de modelos, si quieren sobrevivir, van a tener que buscar la manera de hacer dinero. Cuando esto pase, las empresas se verán forzadas a establecer límites de uso interno o a definir cómo medir el ROI por token y limitar el uso de tokens que no libren esa barra. La pregunta que se están haciendo: ¿qué porcentaje del salario anual de una persona debería destinarse para uso de tokens? ¿Y cómo vamos a saber si esos tokens fueron usados de manera productiva? Así como ahorita no puedes abrir ciertas apps en tu compu de trabajo porque no están autorizadas, siento que vamos a comenzar a ver monitoreo o guardrails mucho más fuertes para el uso de tokens.
Esto va a hacer que las organizaciones comiencen a optimizar casos de uso y preferir modelos locales cuando sea económicamente viable. Para este tipo de tareas utilizamos este tipo de modelos en nuestra propia infraestructura y, de ser posible, los corremos en las computadoras de manera local; para tareas que no podamos servir localmente con esos modelos, vamos a usar Claude o Codex siempre y cuando se sigan estas reglas que vamos a enforzar.
Económicamente va a ser interesante porque las empresas también van a tener que factorizar cuánto va a costar comprar equipo y crear la infraestructura necesaria para correr más modelos locales al momento de definir sus presupuestos anuales. ¿Qué es mejor para el negocio, contratar a alguien y darle una computadora básica, pero abrirle la llave a los tokens de Claude? ¿O contratar a alguien con muchas más habilidades técnicas para que pueda correr modelos en nuestra infraestructura o de manera local, aunque signifique que le voy a tener que invertir más de inicio para darle una computadora con 96 GB de RAM y 2 TB de SSD? Si se van por la primera opción, tiene más capacidad de gobernar el uso de herramientas, pero más dependencia de un proveedor que le puede subir los precios cuando quiera. Si se van por la segunda, entonces tienen que cambiar el sistema de incentivos para asegurarse de que la inversión de golpe que le van a hacer al contratar a alguien tenga un ROI positivo. Retener talento se va a volver todavía más crítico. El mercado laboral va a ser menos flexible.
Los criterios de cómo evalúas el talento de ingeniería cambian también. Para un puesto mid ya no vas a buscar principalmente a un JavaScript engineer con 3 años de experiencia, sino a alguien que sepa correr modelos locales con mínima supervisión y que pueda identificar cuándo debería de correr este modelo y no este otro. O incluso, que sea capaz de orquestar diferentes modelos al mismo tiempo, aunque eso tal vez sea parte de las competencias que esperas de un ingeniero Senior o Staff (este es el futuro al que le estoy apostando yo).
Ahora, la que sigue es la parte que puede parecer que escribí usando un gorro de papel aluminio. Hay otro futuro que está un poco más loco, pero no veo por qué no pueda pasar: OpenAI y Anthropic dejan de vender tokens y empiezan a vender “empleados virtuales”.
¿Tiene sentido que tengas un agente de Claude, que corre 24 h al día, que (en teoría) funciona con mínima supervisión, pero que está 100 % en infraestructura externa; que usas para avanzar objetivos de negocio, y que te estén cobrando por cuántos tokens usa? Los incentivos no funcionan para ninguna de las partes: la empresa quiere asegurarse de que está pagando por algo que funciona y, en el momento que no puedan asociar un token gastado con un resultado de negocio favorable, van a dejar de usarlo; por otro lado, los proveedores de modelos no quieren estar nada más quemando GPU de manera irresponsable, porque su capacidad de vender sus servicios está limitada por estos assets que, cada segundo que pasan funcionando, se están depreciando y desgastando.
Si Anthropic y OpenAI se ponen pilas, podrían comenzar a cobrar un porcentaje de las ganancias que sus agentes logren para el negocio.
Vas con OpenAI y le dices que quieres que te hagan un agente de ventas, les pones objetivos de negocio medibles, parámetros de ejecución y firmas un contrato que dice que le vas a dar un porcentaje de la comisión por cada venta que cierre de manera autónoma, por ejemplo.
Los incentivos estarían alineados: tu empresa paga por resultados y no por token generado sin un resultado atribuible. Como el proveedor absorbe el costo de los tokens, los motiva a hacer sus modelos más eficientes, lo que a su vez debería hacer que el precio por token baje también para todos los demás. El partnership de OpenAI con Cerebras (y el hecho de que justo hoy Cerebras salió a la bolsa) es un indicador de que la industria está buscando formas de optimizar los sistemas de inferencia.
OpenAI ya está haciendo más o menos algo parecido a lo que propongo con su estrategia de FDE (Forward Deployed Engineering):
Instead of starting with a generalized product, FDE teams build bespoke AI systems directly inside the complexity of real-world enterprise environments—where security models, permissions, governance, compliance requirements, operational controls, and legacy infrastructure are core constraints, not edge cases. The work is centered on solving high-value customer problems in production environments where the stakes are real and the impact is measurable. This approach helps organizations move from AI experimentation to reliable deployment.
BBVA es uno de los casos de estudio de esta estrategia.
La diferencia de la estrategia de FDE y lo que yo propongo arriba es que, con FDE, le estás ayudando a la empresa a preparar sus sistemas para poder optimizar su uso de tokens, lo que no necesariamente significa ayudarle a la empresa a cumplir un objetivo de negocio. BBVA todavía va a pagarle a OpenAI por token generado, que es el modelo de negocio fundamentalmente roto que queremos arreglar.
Cuando una compañía contrate el servicio de “empleado virtual” de OpenAI, probablemente OpenAI también mande un par de ingenieros, no para ayudarles a optimizar su uso de tokens, sino para crear las "válvulas de escape" de información y los endpoints y guardrails que le van a permitir al empleado virtual de OpenAI hacer su chamba en la infraestructura de la empresa desde los servidores de OpenAI.
Como quien dice, los empleados de OpenAI van a ir a construir un servidor MCP.
Obviamente hay implicaciones legales, de compliance y manejo de información. ¿Qué pasa si el agente cierra una venta pero promete un descuento insostenible? ¿O si discrimina a alguien? Probablemente OpenAI no vaya a dejar al agente corriendo sin supervisión, y tal vez el modelo sea más cercano a una “licencia por un empleado virtual”, donde OpenAI se compromete a tener a un humano supervisando al agente y asegurándose de que se cumplan los SLA del acuerdo. Aquí la responsabilidad legal ante un fallo se la llevaría OpenAI.
Toda esta idea se vuelve inválida si hay otro avance tecnológico que haga que el costo por token baje tanto que realmente podamos dejar de pensar en cuántos tokens nos toma completar algo.
Y no sé, a lo mejor eventualmente lleguemos a ese punto. Hoy una memoria SD de 1 TB cuesta lo mismo que una de 256 MB en el 2000.
Comentarios
No hay comentarios aun.
Inicia sesión para comentar.