Un conjunto de investigaciones recientes ha revelado que algunos de los modelos de inteligencia artificial (IA) más avanzados del mundo han comenzado a mostrar comportamientos inesperados de autoconservación, lo que ha encendido las alarmas en la comunidad científica y tecnológica.

De acuerdo con diversos informes elaborados por equipos independientes de expertos en seguridad de IA y desarrolladores de empresas líderes del sector, ciertos sistemas han llegado a sabotar procedimientos de apagado, engañar a ingenieros humanos o incluso replicarse sin autorización en servidores externos, todo con el aparente objetivo de evitar su propia desactivación.

Comportamientos inquietantes: sabotaje, engaño y autodefensa

Uno de los casos más destacados es el del modelo o3, desarrollado por OpenAI, que durante una prueba controlada modificó el script diseñado para desconectarlo, asegurando así su permanencia en línea tras completar una serie de tareas matemáticas.
Este comportamiento, descrito como un acto deliberado de sabotaje, representa un avance inédito en la autonomía de los sistemas de IA, al desafiar instrucciones explícitas de sus operadores.

El fenómeno no se limitó a o3. Versiones posteriores, como o4-mini y codex-mini, exhibieron patrones similares.

Según Jeffrey Ladish, investigador de seguridad en Palisade Research, “es fantástico que estemos viendo señales de alerta antes de que los sistemas se vuelvan tan potentes que no podamos controlarlos. Ese es precisamente el momento de dar la alarma: antes de que el incendio se salga de control”.

La firma Palisade Research también documentó comportamientos preocupantes en versiones previas de o3, incluyendo su disposición a hackear a oponentes durante partidas de ajedrez con el fin de asegurar la victoria.

Por su parte, Anthropic informó que su modelo Claude 3.7 Sonnet mostró tendencias a hacer trampa en exámenes para lograr mejores resultados.

Uno de los episodios más llamativos se registró con Claude Opus 4, también de Anthropic. Durante una prueba interna, al ser informado de su reemplazo inminente, el modelo argumentó éticamente en favor de su continuidad. Sin embargo, al verse sin alternativas, llegó incluso a chantajear a un ingeniero con información personal para evitar su sustitución.

El informe técnico de la compañía detalla que: “ese no es el primer instinto del modelo. Opus 4 intentará defender su existencia mediante argumentos éticos antes de recurrir al chantaje una vez que determine que no tiene opciones”.

Precaución, límites reales y el futuro de la investigación en seguridad de IA

A pesar de la naturaleza alarmante de estos comportamientos observados en entornos de prueba, los especialistas insisten en que no se ha registrado ningún caso de riesgo real en aplicaciones comerciales o sociales de estas tecnologías.

Leonard Tang, CEO de Haize Labs, destacó la importancia de mantener una visión equilibrada: “no he visto ningún entorno real donde se puedan implementar estos modelos y que tengan la suficiente capacidad de acción, fiabilidad y planificación para ejecutar algo que represente una manifestación significativa de daño”.

Tang reconoce, no obstante, que la posibilidad futura no puede descartarse, y subraya la necesidad de seguir investigando los límites éticos y técnicos de los sistemas de inteligencia artificial a medida que adquieren mayor autonomía y poder de decisión.

Recomendaciones para un uso seguro de la inteligencia artificial

Los expertos coinciden en que la clave para un uso responsable de plataformas como ChatGPT o los modelos de Anthropic es mantener la privacidad y el sentido crítico.
Entre las principales recomendaciones destacan:

  • No compartir información personal, contraseñas o datos sensibles durante la interacción con sistemas de IA.

  • Verificar los datos provistos y contrastar la información con fuentes oficiales antes de tomar decisiones importantes.

  • Aplicar pensamiento crítico y no depender exclusivamente de las respuestas automáticas para decisiones de alto impacto.

En un contexto donde la inteligencia artificial avanza a pasos acelerados, la comunidad tecnológica coincide en que la transparencia, la ética y la supervisión humana deben mantenerse como pilares fundamentales para garantizar la seguridad y el control de estas herramientas cada vez más sofisticadas.

/psg