¿Los modelos de lenguaje grandes muestran sesgos humanos? Explorando la brecha de confianza-competencia en la IA.
Summary
Este estudio investiga las tendencias de autoevaluación en Modelos de Lenguaje Grandes (LLMs), examinando si los patrones se asemejan a sesgos cognitivos humanos como el efecto Dunning-Kruger. Los LLMs, incluidos GPT, BARD, Claude y LLaMA, son evaluados utilizando puntuaciones de confianza en tareas de razonamiento. Los modelos proporcionan niveles de confianza autoevaluados antes y después de responder a diferentes preguntas. Los resultados muestran casos donde una alta confianza no se correlaciona con la corrección, lo que sugiere sobreconfianza. Por el contrario, una baja confianza a pesar de respuestas precisas indica una posible subestimación. Las puntuaciones de confianza varían según las categorías y dificultades de los problemas, reduciendo la confianza para consultas complejas. GPT-4 muestra una confianza consistente, mientras que LLaMA y Claude muestran más variaciones. Algunos de estos patrones se asemejan al efecto Dunning-Kruger, donde la incompetencia lleva a autoevaluaciones infladas. Aunque no es concluyente, estas observaciones se asemejan a este fenómeno y proporcionan una base para explorar más a fondo la alineación de competencia y confianza en los LLMs. A medida que los LLMs continúan expandiendo sus roles sociales, se justifica una mayor investigación sobre sus mecanismos de autoevaluación para comprender completamente sus capacidades y limitaciones.
#ai #llm #languagemodels