En un interesante artículo publicado en septiembre de 2025, varios investigadores pertenecientes a OpenAI y Georgia Tech se interrogan acerca de las causas de las alucinaciones de los modelos amplios de lenguaje. | Por Alejandro Urueña y María S. Taboada
Foto: IA
En un interesante artículo publicado en septiembre de 2025, Why Language Models Hallucinate, varios investigadores pertenecientes a OpenAI y Georgia Tech se interrogan acerca de las causas de las alucinaciones de los modelos amplios de lenguaje (LLM, en inglés).
Una alucinación es una respuesta que no tiene fundamento, una invención del modelo que, al no encontrar datos para responder, realiza una suerte de adivinación. Los investigadores la comparan con lo que los estudiantes hacen cuando son interpelados sobre algún tema que desconocen y responden con presupuestos o conjeturas.
¿Por qué el modelo directamente no informa que ignora lo inquirido y desarrolla una falacia que parecería verosímil o posible?
Se reconocen dos tipos de alucinaciones frecuentes. Las alucinaciones intrínsecas, que contradicen la información del prompt. Por ejemplo, cuando el usuario argumenta al modelo que la información que está dando es falaz, el modelo le da la razón y a continuación reitera la alucinación. Y las extrínsecas, que es cuando el modelo contradice la realidad externa o los datos con los que fue entrenado. Por ejemplo, cuando proporciona diferentes fechas para un mismo evento o fenómeno, o inventa una referencia bibliográfica (un texto que no existe).
Según los investigadores las razones deben buscarse en cómo han sido entrenados y evaluados los modelos: el preentrenamiento y el postentrenamiento.
Durante la fase de preentrenamiento, un modelo “aprende” la distribución del lenguaje a partir de un vasto corpus de texto. El problema radica en que hay requerimientos y respuestas que reclaman un proceso más complejo que la clasificación binaria en términos de válido-no válido, que es la que suele emplearse.
Varios factores estadísticos pueden contribuir al error-alucinación durante el preentrenamiento. Si los datos no presentan un patrón claro que el modelo pueda “aprender” (incertidumbre epistémica), como en el caso de fechas de nacimiento, el modelo se ve obligado a adivinar. La tasa de alucinación está directamente relacionada con lo que se denomina "tasa de singletons", que es la fracción de hechos que aparecen solo una vez en los datos de entrenamiento. Otra causa puede estar relacionada con la arquitectura del modelo, por ejemplo el método de tokenización o división de caracteres empleado. O porque los prompts son significativamente diferentes de la distribución de los datos de entrenamiento, o el corpus de entrenamiento tiene errores factuales que el modelo reproduce.
La etapa de postentrenamiento incluye técnicas como el “aprendizaje por refuerzo” a partir de retroalimentación humana. Uno de sus objetivos es precisamente reducir alucinaciones y otro tipo de yerros. Los investigadores señalan que no se anulan las alucinaciones porque hay una falla en el modelo de evaluación. Ese mismo modelo termina recompensando las conjeturas. La evaluación sigue un esquema también de calificación binaria: correcto (1) -incorrecto (0), por lo tanto si el modelo plantea que no sabe la respuesta tiene 0 puntos (al igual que una respuesta incorrecta), por lo que alucina para evitar la puntuación menor.
La decisión está en manos de los diseñadores, de la empresa, que debería buscar una forma de puntuación que incentive la explicitación del nivel de certeza. Una propuesta fáctica sería -según los investigadores- instar a que “responda solo si tiene una confianza > 90%, ya que los errores se penalizan con 9 puntos, mientras que las respuestas correctas reciben 1 punto y una respuesta de 'No lo sé' recibe 0 puntos". Este tipo de evaluación llevaría a que el modelo aprenda a responder cuando alcanza un nivel de certeza. De todos modos, concluyen, el sistema de calificación binaria incentiva la adivinación.
Los resultados de la indagación evidencian -aun cuando las tecnológicas no se cansan de reiterar sus objetivos de fiabilidad- que el problema está en las decisiones de los diseñadores y -sobre todo- en los dueños de los algoritmos. Si el discurso de las empresas para la difusión de sus modelos se basa en su omnipotencia y confiabilidad, el reconocer el origen de este tipo de sesgos implica un menoscabo para los objetivos de mercado. Se trata de que los usuarios crean que los algoritmos todo lo pueden: desde producir un proyecto científico, una tesis, una obra de arte, un resumen o un texto perfecto (para sólo citar una parte de esta “todología”). Es cierto que en las plataformas suele advertirse que los modelos pueden fallar, pero se lo hace por lo general con aclaraciones en segundo plano o al pie de la pantalla, de modo que pasen desapercibidas para un lector u observador no detallista.
Los discursos mesiánicos de promoción de los productos se articulan con la ilusión de la interacción con un otro, con idéntico pensamiento y sentimiento humanos, que promueve el formato del chat. Formato ficticio ya que siempre es uno el que pregunta (el humano) y el algoritmo, el que responde. Uno el que no sabe y otro el que sabe. La asimetría es evidente. Si fuera de otro modo, no habría lugar para las alucinaciones, pero el algoritmo hasta hoy “aprende” de los datos, carece de experiencia concreta situada en un aquì y un ahora, de metalenguaje, metacognición y, con ello, de discernimiento y razonamiento real. Si fuera de otro modo, el algoritmo perdería su estatuto de perfecta omnisciencia: revelaría sus dudas, falencias, interrogantes; en suma, su condición de aprendiente.
El tomar consciencia de los poderes y las limitaciones de la tecnología y confrontar las discursividades mesiánicas de los gigantes tecnológicos constituye un desafío educativo impostergable, tanto para la formación profesional como para la vida cotidiana. No se trata sólo de aplicar los algoritmos a las necesidades, sino de saber usarlos, lo que implica tomarlos como objeto de estudio desde una perspectiva crítica que permita construir conciencia de su valor (o disvalor, según la situación) como herramientas para el hacer y pensar humanos. De lo contrario, corremos el riesgo de alucinarnos con los modelos, debilitar nuestras capacidades cognitivas y hasta anularnos (como ha ocurrido lamentablemente con no pocos ejemplos que hoy son objeto de denuncias penales a las tecnológicas).
Impactos éticos y jurídicos
El problema técnico de la falta de certeza programada en los modelos generativos con los retos de la responsabilidad y la justicia social en la gobernanza europea de la IA, está documentado en The Cambridge Handbook of the Law, Ethics and Policy of Artificial Intelligence (2025), editado por Nathalie A. Smuha.
El sistema, programado para mantener un discurso de omnipotencia sin revelación de sus dudas o falencias, choca frontalmente con los principios de gobernanza, especialmente en jurisdicciones como la europea que buscan construir una IA confiable (trustworthy AI). Dicha opacidad deliberada agrava el problema de la responsabilidad, un tema recurrente en la literatura sobre responsabilidad extracontractual, ya que la limitada predictibilidad inherente a estos sistemas dificulta a las víctimas la identificación y prueba de la fuente del daño, afectando la protección legal efectiva. El requisito legal de proporcionar a los afectados "información significativa sobre la lógica involucrada" en decisiones automatizadas se vuelve casi insostenible si el modelo está optimizado para fabricar una lógica convincente en lugar de exponer la incertidumbre real de su proceso interno.
Esta opacidad motivada por el diseño de la IA generativa se ve amplificada por las estructuras sociales y económicas que subyacen a su desarrollo, creando un dilema ético y de justicia ineludible que se manifiesta en hechos reales. Un ejemplo de la vida real de la tensión entre el diseño algorítmico y la justicia estructural se observa en el proceso de curación de datos para los LLM: para reducir la exposición de los usuarios a contenido tóxico, la compañía OpenAI (desarrolladora de ChatGPT) subcontrató el etiquetado de datos dañinos a trabajadores de datos kenianos. Dichos trabajadores, por poco dinero, se ven obligados a exponerse a imágenes sexualmente gráficas, violentas y llenas de odio bajo condiciones laborales extenuantes.
Este hecho revela que los esfuerzos computacionales para hacer que la IA sea "más justa" o "menos sesgada" a menudo corren el riesgo de simplificar problemas sociales complejos y trasladar las injusticias estructurales a las condiciones laborales. El dilema aquí no es solo cómo regular el output alucinatorio del sistema, sino cómo enfrentar la pregunta de si un sistema puede ser verdaderamente considerado justo o moralmente aceptable si ha logrado eliminar sus sesgos internos a través de estructuras laborales explotadoras, un problema que se complica cuando el diseño técnico inicial ya promueve la falsedad sobre la certeza.
A lo largo de miles de años, los humanos hemos construido tecnología para transformar y transformarnos y vencer todos los desafíos de la supervivencia. La IA es un puerto de llegada y de partida que debería fortalecer los caminos hacia un mundo donde podamos sortear limitaciones hasta hoy insalvables y promover plenos derechos para todos.
*Alejandro Urueña: Ética e Inteligencia Artificial (IA) - Founder & CEO Clever Hans Diseño de Arquitectura y Soluciones en Inteligencia Artificial. Magister en Inteligencia Artificial*María S. Taboada: Lingüista y Mg. en Psicología Social. Prof. de Lingüística General I y Política y Planificación Lingüísticas de la Fac. de Filosofía y Letras de la UNT.
.