Cómo los LLMs de código abierto están dándole forma al mercado

Kinling Lo para Rest of World enrevista a Tiezhen Wang, uno de los líderes para Asia-Pacific en Hugging Face:

Opensource AI should remain usable, understandable, reproducible, locally deployable, economically viable, and community-governed even if today's dominant labs, foreign labs, hardware vendors, cloud platforms, or open-weight model providers change direction or disappear.

When a small number of closed frontier labs and platform companies control the models, this infrastructure risks becoming a subscription economy for cognition.

Los encontrones que Anthropic se está dando con el gobierno de Estados Unidos están dando muchos argumentos para invertir en plataformas independientes. Robert Hart en The Verge:

Most governments and businesses cannot come close to matching the scale and resources of frontier labs in the US or China. But sovereign AI does not always mean building the biggest or the most powerful tools. France’s Mistral and Canada’s Cohere show that solid efforts can come from outside these countries, even if the models can’t stand toe to toe. Other countries, like Singapore and the UAE, have focused on narrower but still strategic priorities such as infrastructure, or models that work better with local languages. Of course, there are also open-source models that could one day have Mythos-like capabilities that would be hard for any single party to control.

Creo que tenemos que comenzar a diferenciar entre los modelos AAA como Claude y GPT, y modelos creados para tareas específicas. Mientras Anthropic y OpenAI siguen empujando la barrera de lo que es posible para modelos generalistas, vamos a ver más y más iniciativas para crear modelos, a lo mejor no tan inteligentes en todos aspectos, pero sí con una ventaja considerable en un área en particular.

De hecho, creo que ya estamos viendo parte de esto. Los nuevos Foundations Models de Apple en xOS 27, aunque técnicamente son MoE, tienen una arquitectura que les permite usar cada experto por query, no por token. Más eficiente, mejores resultados.

La pregunta en mi cabeza es cómo escalas esa filosofía a una organización completa. Tal vez Claude o GPT funcionen como despachadores para modelos más pequeños por dominio. Las implicaciones de seguridad de información y compliance son fascinantes.

Sigue leyendo

Comentarios