Meta comienza a monitorear y limitar uso de LLMs internamente después de gastar miles de millones de dólares en absolutamente nada

The Information:

Como parte de las medidas para reducir el gasto, un equipo de desarrolladores de productos e ingenieros ha creado un tablero central llamado AI Gateway para monitorear el uso y el gasto en un solo lugar. Según el memorando, Meta también implementará alertas automáticas para picos de gasto inusuales. El grupo también está realizando un seguimiento de los costos actuales para pronosticar el gasto futuro, de modo que pueda planificar la capacidad de cómputo y negociar con los proveedores. La empresa planea anunciar los nuevos controles y herramientas a un conjunto más amplio de empleados en las próximas semanas.

Meta también se está preparando para incentivar al personal a alejarse de las herramientas de IA de terceros para tareas como la programación, en favor de soluciones más internas, como su asistente de programación desarrollado internamente, MetaCode (anteriormente llamado Devmate), según el memorando. Al mismo tiempo, la empresa también tiene la intención de permitir que los empleados sigan teniendo acceso a nuevos modelos de terceros.

Hace un mes escribí en El modelo de negocio actual de la IA está roto:

Segundo, el modelo de negocio actual no está funcionando y va a tener que repensarse, probablemente en varios niveles. Anthropic y OpenAI están vendiendo tokens, y el precio actual es demasiado bajo. Lo están intentando corregir, y van a continuar subiendo sus precios hasta que noten que la demanda comienza a contraerse. Confirmo esto porque las empresas todavía no tienen suficientes incentivos para ponerle límites adecuados de uso a sus empleados. Por eso ServiceNow y Uber se mamaron sus presupuestos de tokens del año en 5 meses.

Los proveedores de modelos, si quieren sobrevivir, van a tener que buscar la manera de hacer dinero. Cuando esto pase, las empresas se verán forzadas a establecer límites de uso interno o a definir cómo medir el ROI por token y limitar el uso de tokens que no libren esa barra. La pregunta que se están haciendo: ¿qué porcentaje del salario anual de una persona debería destinarse para uso de tokens? ¿Y cómo vamos a saber si esos tokens fueron usados de manera productiva? Así como ahorita no puedes abrir ciertas apps en tu compu de trabajo porque no están autorizadas, siento que vamos a comenzar a ver monitoreo o guardrails mucho más fuertes para el uso de tokens.

Esto va a hacer que las organizaciones comiencen a optimizar casos de uso y preferir modelos locales cuando sea económicamente viable. Para este tipo de tareas utilizamos este tipo de modelos en nuestra propia infraestructura y, de ser posible, los corremos en las computadoras de manera local; para tareas que no podamos servir localmente con esos modelos, vamos a usar Claude o Codex siempre y cuando se sigan estas reglas que vamos a enforzar.

Crunch crunch.

Sigue leyendo

Comentarios