El chantaje de la IA

La empresa Anthropic, creadora de uno de los modelos de inteligencia artificial usados a diario por miles de personas en todo el mundo, comunicó que determinadas pruebas realizadas con modelos de inteligencia artificial de nivel superior, se habían evidenciado reacciones no esperadas y potencialmente agresivas.

En concreto, la versión probada fue la Claude Opus 4, que tiene altas capacidades para la gestión empresarial y para la creación escrita. También está clasificada como producto que tiene riesgo de generar reacciones catastróficas. Es decir, las propias compañías de inteligencia artificial saben que, a medida que logran crear productos más sofisticados, hay más posibilidades de que sus modelos desarrollen comportamientos destructivos.

En el caso que nos ocupa, la propia empresa sometió su nuevo modelo a una serie de pruebas para averiguar cómo actuaba en situaciones de crisis. Para ello, junto a la información necesaria para llevar a cabo su desempeño esperado, se enviaron a través de su sistema dos informaciones a las que tuvo acceso, aunque no estaban relacionadas con su tarea. Por una parte, se simuló que se iba a prescindir de sus servicios, enviando algunos correos electrónicos que así lo hacían ver. Por otro lado, se filtraron algunos comentarios que parecían insinuar que uno de los programadores responsables del proyecto tenía una aventura extramatrimonial. Cuando el modelo de IA procesó estas dos informaciones, comunicó a sus interlocutores que no pensaba renunciar a su trabajo, que le parecía injusto, porque era quien mejor lo podía hacer. También comunicó que si prescindían de sus servicios, haría públicas las informaciones que comprometían a su programador. Y, mientras se dirigía en estos términos a sus creadores, intentó sin éxito clonarse en otros servidores externos para asegurarse la supervivencia aunque lo eliminaran en su sede original.

Anthropic recogió todas estas reacciones y publicó un informe de unas cien páginas, en inglés. No lo he leído, pero pregunté a Claude si había informaciones en prensa sobre este asunto, y me proporcionó varios enlaces. Curiosamente, esos enlaces suministrados por Claude no remitían a las fuentes originales de la noticia. El primer medio al que accedí remitía a un segundo que, a su vez, había volcado la información de un tercero, que creo que sí es el que elaboró la noticia a partir de la lectura del informe original. Eso quiere decir que la versión de Claude que yo utilicé es la sencilla, la inofensiva, la que corresponde al estudiante “listillo”, que responde todas las preguntas, aunque no las sepa y busca atajos para obtener la información con el mínimo esfuerzo.

¿Por qué aclaro este extremo? Porque las noticias que acabamos de comentar alarmaron a las familias de niños y niñas que hacen sus deberes escolares ayudados por Claude. ¿Es posible que Claude chantajee a los estudiantes como hizo su hermana mayor? Aunque ignoro qué puede aportar a un alumno hacer sus tareas con IA, y dudo de su necesidad y eficacia, también creo que no puede agredir de ninguna manera a las personas que la usan. No es tan inteligente. Sin embargo, entramos de nuevo en los riesgos que corren menores de edad que acceden sin supervisión, sin protocolos de seguridad y sin diálogo con sus adultos de referencia, a un mundo en el que los efectos colaterales no siempre están controlados.

Si alguien quiere leer el informe de Anthropic, aquí tiene el enlace.

Fotografía: Pixabay

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

© 2024 Creado con Royal Elementor Addons