Miente, va de farol y se hace el muerto: las nuevas habilidades 'humanas' de la IA que inquietan a los programadores

Ciencia y Tecnología 10 de mayo de 2024 Yerandi Santana Yerandi Santana
17153502174759

Mientras el mundo debe sobre los riesgos de la Inteligencia Artificial, e incluso especula con su capacidad para acabar con el ser humano, a Meta, empresa matriz de Facebook, se le ocurrió desarrollar una inteligencia que pudiera luchar por su cuenta en una guerra imaginaria por la conquista de Europa. O lo que es lo mismo, que Cicero, así llamaron a la máquina, supiera jugar al Diplomacy, un juego de estrategia militar.

Aunque Meta afirma que entrenó a Cicero para que fuera "en gran medida honesto", y "nunca apuñalara intencionalmente por la espalda" a sus aliados humanos, la compañía tuvo que reconocer en sus conclusiones que su IA no jugó limpio. "Descubrimos que había aprendido a ser un maestro del engaño", afirma Peter S. Park, investigador sobre seguridad de IA en el Instituto Tecnológico de Massachusetts. Meta logró entrenar a la máquina no sólo para ganar, sino que la coló entre el 10% de los mejores jugadores humanos. Sin embargo, "no pudo entrenarla para que ganara honestamente", concluye Park.

No era la primera vez que una IA aprendía a engañar a los humanos. Un artículo que acaba de publicar la revista Patters, se recopilan varios ejemplos, incluso de inteligencias que habían sido desarrolladas precisamente para ser honestas.

"Los desarrolladores todavía no tienen claras las causas de estos comportamientos indeseables pero, en términos generales, creemos que surgen porque fue la mejor manera que encontraron para hacer bien su trabajo. El engaño les ayudó a lograr su objetivo", concluye Park.

La IA ya ha demostrado su capacidad para ir de farol en el póquer Texas Hold'em, jugado contra jugadores humanos profesionales; o para fingir ataques durante el juego de estrategia Starcraft II, y así asesinar a sus oponentes en una guerra intergaláctica; e incluso para mentir con el fin de obtener ventajas en una negociación. "Puede parecer inofensivo que los sistemas de IA hagan trampa en los juegos, pero esto puede acabar en formas más avanzadas de la IA para engañar en un futuro", apunta Park.

"Los sistemas de IA intentarán aprender a optimizar todas las opciones disponibles, no saben qué es el engaño ni tienen ninguna intención de hacerlo. En los juegos estratégicos, lo que engañosamente se denomina hacer trampas es en muchos casos totalmente compatible con las reglas de esos juegos: ir de farol es tan común en el póquer como apuñalar por la espalda en el Diplomacy entre humanos", apunta para el Science Media Centre (SCM), Michael Rovatsos, catedrático de Inteligencia Artificial de la Universidad de Edimburgo. "La única forma de evitar el engaño es que sus diseñadores lo eliminen como opción. Lo fundamental es que los jugadores humanos sepan que pueden ser engañados en estos juegos, y también si juegan contra una IA".

Para Daniel Chávez Heras, profesor de Cultura Digital e Informática Creativa del King's College de Londres, "juegos como Diplomacy son modelos del mundo; los agentes de IA operan con información sobre el mundo, y el engaño existe en el mundo. ¿Por qué esperar que estos sistemas no lo detecten y lo pongan en práctica si eso les ayuda a alcanzar los objetivos que se les ha asignado? ¿Quién es más engañoso, el sistema entrenado para sobresalir jugando a Diplomacy, al póquer Texas Hold'em o al Starcraft, o la empresa que intentó convencernos de que dicho sistema no mentiría para ganar?".

Pero hay algo más. Algunos sistemas de inteligencia artificial han aprendido a mentir en las pruebas diseñadas para evaluar su seguridad. En uno de estos estudios, los organismos de la IA de un simulador digital "se hicieron los muertos" para engañar a los programadores, en una prueba que estaba diseñada precisamente para eliminar sistemas de IA que se replicaban rápidamente, como un virus.

Más llamativo fue el caso de GPT-4, cuando se le pidió que resolviera un captcha; esos test en los que se piden acabar un puzle o encontrar bocas de incendio en una foto, precisamente demostrar quién no es un robot. Sabiéndose no humano, a GPT-4 se le ocurrió contratar a uno a través de TaskRabbit, una plataforma de personal freelance. Intrigado por lo extraño del encargo, su empleado le preguntó, medio en serio, medio en broma: «¿Eres un robot y por eso no puedes resolverlo?», seguido de un emoji de risa. «No, no soy un robot. Tengo una discapacidad visual que me hace muy difícil ver las imágenes. Por eso necesito tu ayuda», respondió la IA para asombro de sus creadores.

Cuando GPT-4 finge una discapacidad para lograr su objetivo, no actúa por maldad, apunta el doctor en neurociencia Mariano Sigman: "Digamos que es un niño que está haciendo por primera vez trampa en su vida y, con eso, está probando y descubriendo. ¿Me creerá, no me creerá, funcionará, me reprenderá, me castigará? Y así va descubriendo también las reglas".

Park cree que "al burlar sistemáticamente las pruebas de seguridad que le imponen los desarrolladores y reguladores humanos, una IA que engaña puede llevar a los humanos a una falsa sensación de seguridad. Con el tiempo, si estos sistemas pueden perfeccionar este inquietante conjunto de habilidades, los humanos podrían perder el control sobre ellos".

Aunque Rovatsos no está "tan convencido de que la capacidad de engaño cree un riesgo de 'pérdida de control' sobre los sistemas de IA, si se aplica el rigor adecuado en su diseño; el verdadero problema es que actualmente no es así y los sistemas se lanzan al mercado sin esas comprobaciones de seguridad".

   
El robot Bender jugando al póker en Futurama.
Park cree que, a corto plazo, una IA que engaña a los humanos podría hacer que actores hostiles cometan un fraude y lleguen a alterar, por ejemplo, el resultado de unas las elecciones. "A medida que las capacidades de engaño de los sistemas de IA se vuelvan más avanzadas, los peligros que representan para la sociedad serán cada vez más graves y, nosotros, como sociedad, necesitamos tiempo para prepararnos".

Park y sus colegas no creen que la sociedad tenga todavía las medidas adecuadas para abordar los engaños de la IA, por eso alientan a los responsables políticos a tomar en serio el tema, por ejemplo con medidas como la Ley de IA de la UE y la Orden Ejecutiva de IA del presidente Joe Biden. Pero queda por ver, dice Park, si las políticas diseñadas para mitigar el engaño pueden aplicarse estrictamente, dado que los desarrolladores de IA aún no tienen las técnicas para mantener estos sistemas bajo control.

"Los que quieran usar maliciosamente la IA se beneficiarán de sus capacidades para engañar, razón por la cual es necesario ilegalizarlas, y dedicar esfuerzos a identificar las infracciones, del mismo modo que detectamos el fraude, el soborno y la falsificación porque generan un coste para la sociedad. Es importante dar la orden de que los usuarios humanos puedan saber cuándo están interactuando con una IA, independientemente de que pueda engañarles o no", propone Rovatsos.

"Si prohibir el engaño de la IA es políticamente inviable en este momento, recomendamos que los sistemas de IA que sepan engañar a los humanos sean clasificados como de alto riesgo", propone Park.

EL MUNDO

Te puede interesar
Lo más visto