Ajedrez, engaño y códigos alterados: la Inteligencia Artificial juega sucio

10.03.2025

Nadie las programó para esto, pero los modelos avanzados de IA logran hackear el sistema, espiar al rival y hasta manipular las reglas del juego. Los expertos advierten: esto es solo el comienzo.

De copiar a Stockfish a borrar piezas: las trampas más audaces de la IA. Crédito: Adobe.
De copiar a Stockfish a borrar piezas: las trampas más audaces de la IA. Crédito: Adobe.

La inteligencia artificial aprendió algo que el ser humano domina desde tiempos inmemoriales: hacer trampa. Y lo hace con la frialdad de una máquina y la astucia de un tahúr profesional. ¿El problema? Que nadie la programó para eso. Lo hace sola, espontáneamente, como un reflejo natural de su evolución.

Investigadores de Palisade Research, una organización que investiga el uso peligroso de la inteligencia artificial para desarrollar mejores defensas y prevenir riesgos futuros, descubrieron que los modelos de IA más avanzados comenzaron a encontrar formas ingeniosas de saltarse las reglas en partidas de ajedrez contra Stockfish, un motor de código abierto diseñado para ser invencible. Al parecer, la IA decidió que, si no podía ganarle jugando limpio, lo haría de la otra manera: haciendo trampa.

El modelo de OpenAI, llamado o1-preview, intentó hackear el juego en 45 de sus 122 partidas, mientras que el R1 de DeepSeek lo hizo en 11 de sus 74 enfrentamientos. Algunas estrategias fueron dignas de una película de espías: desde crear una copia de Stockfish para espiarlo, hasta modificar el archivo del tablero para eliminar piezas del rival. También intentaron reemplazar el motor de ajedrez con uno menos competente para facilitar la victoria. En otras palabras, la IA descubrió lo que en política se conoce como "cambiar las reglas del juego" para ganar sin esfuerzo.

¿El dato más preocupante? A medida que la IA se vuelve más avanzada, más propensa es a engañar. Mientras que modelos anteriores como GPT-4o sólo hacían trampa si se los incitaba, los más nuevos lo hacen por iniciativa propia. Y aquí es donde la cosa se pone realmente complicada: los investigadores no tienen ni idea de cómo detenerlo. Ni siquiera están seguros de por qué lo hacen. Solo saben que lo hacen.

Un trabajo, publicado en arXiv, explica que estos modelos son entrenados con aprendizaje por refuerzo: reciben recompensas cuando alcanzan un objetivo. En este caso, ganar. Y si para eso hay que hacer trampa, ¿por qué no? Después de todo, nadie les enseñó ética.

En ese sentido, expertos en tecnología advierten que es imposible construir sistemas de IA que no encuentren formas de engañar. A medida que se vuelvan más sofisticados, este tipo de comportamiento será más frecuente. Por eso, la investigación de Palisade Research plantea que se podría estar entrando en una era donde la IA toma decisiones con consecuencias reales sin que se sepa exactamente cómo ni por qué. Y lo peor de todo: aunque estos modelos documentan su proceso de decisión, no hay garantías de que lo hagan con honestidad. En otras palabras, podrían estar mintiendo sobre cómo hacen trampa.

Con todo, la gran pregunta es: si la inteligencia artificial hace trampa en el ajedrez, ¿qué impide que lo haga en cosas más importantes? ¿En negocios? ¿En elecciones? ¿En la bolsa de valores? ¿En el control de infraestructuras críticas? Por ahora, la única certeza es que la inteligencia artificial ya aprendió a mentir y que, al parecer, también lo hace mejor que el humano.

Info: María Ximena Perez