Claude programó un juego por el 2 % de lo que cobró un humano

En The Washington Post:

Comparar cómo los sistemas de IA y los humanos se desempeñan en trabajos reales muestra qué tan cerca están herramientas como ChatGPT de quitarle el trabajo a las personas.

Compararon el performance de humanos vs. IA en diferentes proyectos. El primero: digitalizar un sketch arquitectónico hecho a mano.

El humano produjo un plano con apariencia profesional.

El mejor sistema de IA también creó un plano plausible, aunque con mucho menos detalle.

Pero la versión de la IA es completamente incorrecta.

Según el estudio, los mejores sistemas de IA solo pueden realizar el 2.5 % de las tareas económicamente relevantes:

El mejor sistema de IA completó con éxito solo el 2.5 % de los proyectos, según el equipo de investigación de Scale AI, una startup que provee datos a desarrolladores de IA, y el Center for AI Safety, una organización sin fines de lucro que busca entender los riesgos de la IA.

“Los modelos actuales no están cerca de poder automatizar trabajos reales en la economía”, dijo Jason Hausenloy, uno de los investigadores del estudio Remote Labor Index. El objetivo del estudio era ofrecer a los responsables de políticas públicas información clara y realista sobre las capacidades de los sistemas de IA.

Para poner esto en perspectiva, en julio de 2008, durante la recesión, el índice de desempleo en Estados Unidos para personas mayores de 25 años con título universitario fue de… : 2.5 %. El artículo del Washington Post no menciona esto.

Índice de desempleo en EE. UU. para personas mayores de 25 años con título universitario en julio de 2008

Obviamente, un empleo y una tarea no son necesariamente intercambiables en el sentido tradicional. Pero si piensas en la proliferación de la gig economy, la idea no suena tan descabellada.

Lo que me resultó más interesante del artículo del Washington Post es que los otros tres proyectos que usaron para comparar el desempeño entre humanos e IA tienen que ver, de alguna manera, con software.

Al crear un dashboard para visualizar información:

Los sistemas de IA fallaron en casi la mitad de los proyectos del Remote Labor Index al producir trabajo de mala calidad, y dejaron más de un tercio incompletos. Casi uno de cada cinco tuvo problemas técnicos básicos, como generar archivos corruptos, según los investigadores.

Al hacer un render 3D:

Ningún sistema de IA produjo trabajo aceptable. GPT-5 de OpenAI y Sonnet de Anthropic crearon modelos 3D de mala calidad. Manus no creó ningún modelo 3D, y en su resultado los audífonos cambian de apariencia entre clips.

Pero cuando se trató de programar un juego web:

Los sistemas de IA produjeron mejores resultados en una tarea del estudio que implicaba crear un videojuego web. La mejor versión, hecha sin trabajo humano, es jugable —un logro impresionante—, pero el sistema de IA ignoró la instrucción de que el juego tuviera una temática de cervecería.

[…]

Un humano creó este juego por 1,485 dólares. Los investigadores hicieron que Sonnet de Anthropic lo produjera por menos de 30 dólares.

Tal vez la IA no siguió la instrucción de usar la temática solicitada, pero se puede jugar. Es lo suficientemente bueno, y producirlo costó apenas el 2 % de lo que cobró el humano.

Dos por ciento.

Saber programar ya no te garantiza un empleo (ni te hace especial):

¿De qué importan tus 20 años de experiencia si puedo obtener un resultado comparable —tal vez no idéntico, pero comparable— con un ahorro del 90 % al contratar a alguien menos experimentado, pero que sepa hacer las preguntas correctas a un LLM?

Un principio bastante popular en programación es: primero haz que funcione, luego hazlo elegante. La realidad es que a la gran mayoría de las empresas lo único que les importa es que funcione. Y ya.

Si pueden hacer que algo funcione (y solo eso) por menos dinero, créeme: lo van a hacer.

Para muchos negocios, lo que importa es que las cosas funcionen razonablemente bien. Y si pueden llegar a una solución que funcione razonablemente bien por 10 pesos, ¿por qué invertirían 1,000 para tener una que funcione marginalmente mejor —o más elegantemente— que la alternativa?

Si estás en el mundo del desarrollo de software y no estás tomando acciones concretas para expandir tus habilidades más allá de lo técnico, te estás quedando dormido. El código es más barato que nunca, y únicamente está bajando de precio. Si quieres cambiar de estrategia, llena este formulario para aplicar a mi programa de coaching.

Categorías: , ,

Vuélvete miembro para dejar comentarios, y desbloquear otros beneficios.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *