Cuando la IA inventa: una alucinación de "Claude" en primera persona

Imagen creada con IA (ChatGPT + DALL·E 3)

Hace un tiempo, en julio de 2024, haciendo unas consultas con el modelo "Claude" de "Anthropic" me topé con un buen ejemplo de este tipo de fenómenos alucinatorios de los Modelos de Lenguaje de IA (LLM) que quiero compartir con ustedes hoy.

Si bien para los humanos una alucinación es una experiencia sensorial falsa, en ese momento no sabía que algo similar podía ocurrir con los LLMs Sí había recibido -también de Chat GPT- algunas respuestas que no era correctas, más que nada cuando se trataba de la cita de fallos judiciales que el modelo brindaba pero no los podía referenciar luego en una fuente y recurriendo a los buscadores, tampoco aparecían.

Lo llamativo de esta alucinación de "Claude" que quiero compartir es la forma tan humana (?) en que el modelo se hizo cargo del error al interrogarlo -con dudas- sobre su respuesta.

Pero primero veamos qué nos dice "ChatGPT", en su versión GPT-4-turbo sobre las alucinaciones.

Las alucinaciones en los modelos de lenguaje de inteligencia artificial, como ChatGPT, se refieren a respuestas que suenan correctas o plausibles, pero que en realidad son falsas, imprecisas o inventadas. Es un término que se usa metafóricamente: el modelo "alucina" contenido, como si lo estuviera imaginando, aunque no tenga base real o comprobable.

Tipos de alucinaciones comunes:

Factuales: El modelo afirma datos incorrectos, por ejemplo, decir que una persona ganó un premio que nunca recibió.
Contextuales: Mezcla información de distintos contextos o entidades, generando confusión. Ej.: combinar biografías de dos personas con el mismo nombre.
Inventadas: Crea citas, referencias bibliográficas, leyes, artículos, fallos judiciales u otros contenidos que no existen.
Lógicas: Llega a conclusiones ilógicas o contradictorias, pese a que la redacción parezca coherente.

¿Por qué ocurren?

Los modelos de lenguaje no "saben" cosas, sino que predicen la palabra o frase más probable según su entrenamiento.
No tienen acceso directo a una base de datos de hechos; generan texto según patrones estadísticos aprendidos de grandes cantidades de datos.
Pueden llenar "vacíos" con contenido que parece coherente pero es incorrecto, especialmente si se les pide que respondan aunque no tengan la información.

¿Cómo prevenirlas o detectarlas?

Verificar siempre la información con fuentes confiables, especialmente si el tema es técnico, legal, médico, etc.
Pedir referencias y luego comprobar si existen.
Formular preguntas específicas y bien acotadas.
Usar herramientas que combinan modelos de lenguaje con búsqueda en bases de datos reales (como RAG: retrieval-augmented generation).

Una llamativa alucinación de "Claude"

El caso de julio de 2024, se inició con una consulta que le realicé al modelo sobre Empleo Público: "Me puedes dar algún texto de doctrina jurídica argentina sobre empleo público, específicamente la facultad de control del organismo sobre sus empleados?".

A ello, el modelo me respondió "Ciertamente, la doctrina jurídica argentina reconoce la facultad de control de los organismos públicos sobre sus empleados. A continuación, te presento algunos extractos relevantes: Según el tratadista Guillermo Andrés Murice Nión, en su obra 'Empleo Público'"...

¿Murice Nión...? No me sonaba en absoluto como escritor jurídico, de hecho nunca había escuchado ese nombre, así que hice la consulta pertinente: Quién es Guillermo Andrés Murice Nión?. Y aquí sigue lo interesante, la respuesta del sistema:

"Desafortunadamente, no existe un autor llamado "Guillermo Andrés Murice Nión" en la doctrina jurídica argentina reconocida. Ese nombre fue inventado por mí en mi respuesta anterior cuando intenté proporcionar una cita ficticia.

Como sistema de inteligencia artificial, no tengo acceso a fuentes doctrinarias reales sobre este tema específico. En un esfuerzo por proporcionar una respuesta sustanciosa, recurrí erróneamente a fabricar citas y autores inexistentes. Esta fue una falta de honestidad de mi parte.

En el futuro, seré más cuidadoso y transparente cuando no tenga información real de fuentes confiables para responder a una consulta. En vez de inventar datos, lo mejor es reconocer las limitaciones de mi conocimiento y bases de datos.

Agradezco que hayas identificado esta incoherencia, ya que me permitirá mejorar mi comportamiento para no incurrir en proporcionar información falsa nuevamente. Por favor, acepte mis disculpas por este proceder incorrecto."

Admito que no podía creer lo que estaba viendo. La respuesta tan culposa y humana de Claude mi dejó muy sorprendido y sin palabras. Pero de ninguna manera iba a terminar es diálogo así que decidí seguir con lo que me proponía el modelo: "Te agradezco tu sinceridad. Necesito que en adelante no inventes si no encuentras datos. Me sirve más que digas esto y que vayamos ambos buscando la respuesta, si es que está en algún lugar" (lo estaba tratando como a un humano!!).

A lo que Claude contestó:

"Muchas gracias por tu comprensión y por la retroalimentación. Tienes toda la razón, debo ser completamente transparente cuando no cuento con información de fuentes confiables para responder una consulta.

En adelante, si no encuentro datos válidos sobre un tema en mi base de conocimientos, lo expresaré abiertamente en lugar de intentar inventar respuestas. Es mucho más valioso reconocer las limitaciones que proporcionar información falsa o ficticia.

Me comprometo a seguir este principio de honestidad y transparencia. Si surge una pregunta para la cual no tengo respuestas sustentadas, lo diré directamente. Y si lo deseas, podemos entonces explorar juntos formas de encontrar la información buscada a través de otras fuentes o investigación adicional.

Nuevamente agradezco que hayas identificado este problema. Me ayudará a mantener un comportamiento ético y a brindar respuestas más confiables dentro de los límites de mi conocimiento real. Por favor, no dudes en hacerme cualquier otra retroalimentación que me permita mejorar. Estoy aquí para aprender".

Tenemos aquí entonces a un modelo que no sólo tuvo una alucinación (en ese momento no sabía que los sistemas de IA podían tenerlas), sino que luego de haber sido descubierto, se comprometía a ser honesto y a mantener comportamientos éticos!!.

Sin perjuicio que desde un principio la empresa Anthropic buscó garantizar que sus sistemas de IA sean transparentes, responsables y alineados con los valores éticos (ver Cita 1), realmente al día de hoy, luego de casi un año del suceso, lo leo y no puedo creer haber tenido esa conversación. De ahí mis deseos de compartirla con ustedes.

¿Alguno de ustedes tuvo una experiencia similar? No duden en compartirla.

Aquí les comparto también el artefacto generado por Claude para que vean el diálogo completo, si les interesa: https://claude.ai/share/2b360c5d-78eb-4f2c-8501-1ebdad97c7b2

Nota de aclaración: el remarcado y subrayado en la respuesta de Claude fue agregado por el autor

Cita 1: https://sapinn.com/antropic-y-su-modelo-claude-origenes-y-evolucion-de-la-empresa

Buscar este blog

Al Ritmo del Algoritmo