Robustez: que la IA no se deje enganar

Una IA robusta funciona correctamente incluso cuando recibe datos raros, inesperados o manipulados a proposito. Imaginad un portero de discoteca que no se deja colar a nadie con un carnet falso: eso es robustez.

Ataques adversariales (trucos para enganar a la IA)

Son modificaciones pequenas y calculadas en los datos de entrada para enganar a la IA. A veces son totalmente invisibles para los humanos. Estos son casos reales:

Imagen de panda que se convierte en gibon

Anyadiendo ruido invisible (cambios en pixeles que vuestros ojos no ven) a la imagen de un panda, la IA la clasifica como un gibon con un 99% de confianza. Para vosotros sigue siendo un panda. Para la IA, no.

Pegatina en senal de STOP

Imaginad que alguien pone unas pegatinas en una senal de STOP y el coche autonomo no la reconoce. Sigue conduciendo sin parar. Esto se ha demostrado en investigaciones reales y da bastante miedo.

Comandos de voz ocultos

Se pueden esconder instrucciones en audio que los humanos no oimos pero los asistentes de voz (Alexa, Siri, Google Assistant) si detectan. Alguien podria hacerle un pedido a vuestro altavoz inteligente sin que os enteraseis.

Por que es peligroso?

Si un coche autonomo no reconoce una senal de STOP, puede causar un accidente. Si un sistema de seguridad del aeropuerto deja pasar a alguien no autorizado, las consecuencias son graves. La robustez no es un extra: es critica.

Estrategias de defensa

Entrenamiento adversarial

Entrenar a la IA con ejemplos trampa para que aprenda a detectarlos. Como vacunarla contra los enganios.

Deteccion de anomalias

Identificar cuando los datos de entrada son sospechosos o manipulados. Un filtro anti-trampas.

Validacion de entrada

Filtrar y comprobar los datos antes de que lleguen al modelo. Como un control de seguridad del aeropuerto.

Monitoreo continuo

Vigilar como funciona el modelo todo el tiempo. Si de repente falla mas de lo normal, saltan las alarmas.

Dato curioso: En competiciones de ciberseguridad (parecidas a los esports pero de hackeo), equipos de hackers intentan enganar modelos de IA para encontrar sus debilidades. Asi se descubren vulnerabilidades antes de que alguien las use en el mundo real. Es como un simulacro de incendio digital.

Probad esto

Usad Google Lens o la camara de vuestro movil para identificar un objeto. Ahora taparlo parcialmente con la mano o ponerle un post-it encima. Sigue reconociendolo? Probad con diferentes objetos. Estais haciendo un "test de robustez" casero.

Lo que teneis que recordar

Robustez significa que la IA funcione bien incluso cuando intentan enganarla. Existen ataques adversariales que pueden confundir a la IA con cambios invisibles para nosotros. Por eso se usan defensas como el entrenamiento adversarial (entrenarla contra trampas) y la validacion de entrada (filtrar datos sospechosos).