OpenAI lo admite: la inteligencia artificial está diseñada para mentir con seguridad

OpenAI confirmó que las alucinaciones de la IA son inevitables. El problema no es técnico: los modelos son premiados por inventar respuestas convincentes.

Alucinaciones de la IA: por qué ChatGPT y otros modelos inventan respuestas y cómo reducir el error

Alucinaciones de la IA: por qué ChatGPT y otros modelos inventan respuestas y cómo reducir el error

Imagen creada con IA

Por estos días, la discusión sobre la inteligencia artificial suele centrarse en los límites de los modelos, su velocidad de avance o su impacto en el empleo. Sin embargo, una de las revelaciones más inquietantes llegó desde la propia OpenAI: las alucinaciones —esas respuestas falsas, fabricadas, pero expresadas con total seguridad por los modelos— no son un error que pueda corregirse, sino una limitación estructural de la tecnología actual.

La afirmación no es menor. Después de liderar la revolución de la IA generativa con ChatGPT, la compañía publicó un trabajo que expone un punto clave: el problema no está solo en los modelos, sino en cómo los evaluamos y qué tipo de tareas y datos utilizamos para entrenarlos. Y, sobre todo, qué comportamientos recompensamos.

Esta mirada cambia por completo la conversación sobre los riesgos, las expectativas y los usos posibles de la IA.

Lo preocupante: las alucinaciones no son un accidente, son inevitables

Durante años, investigadores sospechaban que ciertos errores de los grandes modelos de lenguaje no podían resolverse únicamente con “más datos” o “más parámetros”. La nueva evidencia lo confirma. Las alucinaciones ocurren porque los modelos están diseñados para completar patrones lingüísticos, no para verificar hechos.

Los ejemplos del estudio son reveladores. Ante una pregunta sencilla —¿cuántas letras “D” tiene la palabra “DEEPSEEK”?— modelos de última generación como DeepSeek-V3, Meta AI e incluso Claude 3.7 Sonnet fallaron una y otra vez. Algunos respondieron “2”, otros “3” y algunos llegaron a decir “6” o “7”. Ninguno acertó.

Incluso los últimos modelos de OpenAI exhiben tasas preocupantes de error:

  • o1 alucina en el 16% de los casos,
  • o3 en el 33%,
  • o4-mini en el 48%.

La conclusión de los investigadores es contundente: existen tres razones estructurales que vuelven inevitables estos fallos.

  • Falta de datos confiables: cuando el modelo no tiene información suficiente, completa los huecos inventando.
  • Tareas fuera de su alcance: hay problemas que ningún modelo actual puede resolver.
  • Complejidad intrínseca: incluso una IA perfecta fallaría en ciertas preguntas por la naturaleza del desafío.

Pero lo más importante es otra cosa: el sistema de evaluación está mal diseñado.

El gran responsable: un sistema de evaluación que castiga la duda y premia la falsedad convincente

El hallazgo más inquietante es cultural, no técnico: en 9 de cada 10 evaluaciones actuales, los modelos son penalizados cuando responden “no sé” y son premiados cuando dan una respuesta incorrecta, pero dicha con seguridad.

En otras palabras, el sistema está optimizado para favorecer la confianza, no la precisión.

Esto tiene un impacto directo en su comportamiento: los modelos aprenden que es mejor decir algo —lo que sea— antes que admitir ignorancia. En un entorno de consumo masivo, donde millones de personas y organizaciones usan IA para tomar decisiones, esto no es un problema menor: es un riesgo sistémico.

De ahí surge el mensaje de fondo del estudio: no podemos eliminar las alucinaciones, pero sí podemos reducir su impacto cambiando cómo evaluamos y entrenamos a la IA.

Qué necesitamos cambiar para que la IA sea realmente confiable

La solución no pasa únicamente por más entrenamiento o más datos, sino por un nuevo enfoque de evaluación:

  • Recompensar la incertidumbre cuando es razonable.
  • Diseñar métricas más humanas y menos punitivas.
  • Incorporar supervisión constante.
  • Medir impactos reales y no solo performance estadística.

No importa cuán sofisticada sea la arquitectura: sin un proceso de evaluación riguroso, el modelo terminará reproduciendo errores que podrían haberse evitado.

Con base en nuestra experiencia, proponemos siete prácticas esenciales para mejorar el entendimiento y la evaluación de los LLMs:

  • Calidad de datos: entrenar con información limpia, curada y complementada con RAG para reforzar el conocimiento real.
  • Estructurar y parsear los datos: convertir información desordenada en datasets útiles y comprensibles.
  • Definir tareas con precisión: un agente solo funciona bien cuando sabe exactamente qué debe responder, con qué fuentes y bajo qué criterios será evaluado.
  • Engineering de prompts riguroso: instrucciones claras, contexto específico y pruebas iterativas.
  • Reducción de sesgos: entrenar modelos y agentes que eviten perpetuar desigualdades, algo crítico en aplicaciones sensibles.
  • Evitar la dependencia ciega de herramientas: no todo modelo sirve para todo problema; la estrategia técnica importa.
  • Cultura data-driven: sin una organización que entienda y valore los datos, ninguna IA funcionará de manera robusta.

Mirar el futuro con realismo, no con ingenuidad

Aceptar que las alucinaciones no desaparecerán es incómodo, pero es el primer paso para una IA más segura y transparente. La clave no está en esperar el modelo perfecto —porque no existe— sino en diseñar sistemas que puedan detectar, mitigar y contextualizar esos errores.

Las organizaciones que hoy usan IA para tomar decisiones críticas necesitan entender este punto: los modelos son poderosos, pero no infalibles. Y si no se evalúan de forma correcta, pueden convertirse en fuentes de riesgo.

La pregunta no es si la IA va a alucinar. La pregunta es si estamos preparados para gestionarlo.

CEO de 7Puentes

Dejá tu comentario

Te puede interesar