Los LLMs también sufren del efecto Dunning-Kruger

The Dunning-Kruger Effect in Large Language Models: An Empirical Study of Confidence Calibration:

Los modelos de lenguaje de gran tamaño (LLM) han demostrado capacidades notables en diversas tareas; sin embargo, su habilidad para evaluar con precisión su propia confianza sigue siendo poco comprendida. Presentamos un estudio empírico que investiga si los LLM exhiben patrones que recuerdan al efecto Dunning-Kruger —un sesgo cognitivo donde los individuos con competencia limitada tienden a sobreestimar sus habilidades. Evaluamos cuatro modelos de última generación (Claude Haiku 4.5, Gemini 2.5 Pro, Gemini 2.5 Flash y Kimi K2) a través de cuatro conjuntos de datos de referencia que suman 24,000 ensayos experimentales. Nuestros resultados revelan diferencias de calibración sorprendentes: Kimi K2 muestra un exceso de confianza severo con un Error de Calibración Esperado (ECE) de 0.726 a pesar de tener solo un 23.3% de precisión, mientras que Claude Haiku 4.5 logra la mejor calibración (ECE = 0.122) con un 75.4% de precisión. Estos hallazgos demuestran que los modelos con bajo rendimiento muestran un exceso de confianza notablemente mayor —un patrón análogo al efecto Dunning-Kruger en la cognición humana. Discutimos las implicaciones para el despliegue seguro de los LLM en aplicaciones de alto riesgo.

Claude Haiku 4.5 parece ser el mejor calibrado:

Nuestros resultados proporcionan evidencia convincente de patrones tipo Dunning-Kruger en la calibración de confianza de los LLM, extendiendo trabajos previos sobre las brechas entre confianza y competencia [Singh et al., 2024, 2023]. El modelo con peor desempeño (Kimi K2, 23.3% de precisión) exhibió el exceso de confianza más severo (ECE = 0.726), mientras que los modelos con mejor desempeño mostraron una calibración progresivamente mejor. Esta relación inversa entre competencia y exceso de confianza refleja el clásico efecto Dunning-Kruger en la cognición humana y se alinea con observaciones de exceso de confianza sistemático en los LLM [Groot y Valdenegro-Toro, 2024]. Fundamentalmente, Claude Haiku 4.5 demuestra que una buena calibración es alcanzable. Este modelo muestra la mayor variabilidad de confianza (std = 41.0), lo que sugiere que modula adecuadamente la confianza basándose en la dificultad de la pregunta. Notablemente, exhibe falta de confianza en HellaSwag (puntuación de exceso de confianza = -0.089), lo que indica una conciencia metacognitiva análoga a la humildad experta en estudios humanos —el único caso de este tipo observado en todas las combinaciones de modelo y conjunto de datos.

Y las implicaciones de esto:

1. Evaluación de riesgos: Los modelos que exhiben patrones de Dunning-Kruger son particularmente peligrosos porque expresan una alta confianza precisamente cuando es más probable que estén equivocados.

2. Selección de modelos: La calidad de la calibración debería ser un criterio principal para la selección de modelos, junto con las métricas de rendimiento bruto.

3. Umbrales de confianza: Los umbrales de confianza simples son insuficientes para modelos mal calibrados; un umbral de confianza del 90% no ofrece garantía de seguridad cuando la precisión real del modelo en ese nivel de confianza es solo del 24%.

4. Beneficios del modo de razonamiento: Nuestra evaluación del modo de pensamiento extendido se alinea con los hallazgos de que los modelos de razonamiento pueden exhibir una calibración mejorada [Yoon et al., 2025, Pawitan y Holmes, 2024].

5. Limitaciones de los puntos de referencia: Los puntos de referencia actuales que informan solo métricas de precisión sin calibración de confianza crean una falsa creencia de competencia del modelo. Un modelo que alcanza el 80% de precisión puede parecer competente, pero expresar…

Los LLM son una maravilla, considerando que logramos automatizar la falta de criterio de la que muchos sufrimos.

Los LLMs también sufren del efecto Dunning-Kruger

Comparte esto:

Deja un comentario Cancelar respuesta