Redes Neuronales Convolucionales (suena complicado, pero es sencillo)

Las Redes Neuronales Convolucionales (en ingles, Convolutional Neural Networks o CNN) son el tipo de IA que permite a los ordenadores reconocer lo que hay en una imagen. El nombre suena intimidante, pero el concepto es simple: la IA mira una imagen capa por capa, de lo mas simple a lo mas complejo, exactamente igual que hace vuestro cerebro.

¿Como funciona? Pensad en como mirais una foto

Cuando veis una foto de un gato, vuestro cerebro no procesa la imagen entera de golpe. Primero detecta lineas y formas, luego partes (ojos, orejas, bigotes) y finalmente dice "es un gato!". Una Red Neuronal Convolucional hace exactamente lo mismo, pero con matematicas en vez de neuronas biologicas.

Capa por capa: de lo simple a lo complejo

Capa 1: Detecta bordes y lineas

Lo primero que hace la red es buscar lineas, bordes y cambios de color. Es como cuando entrecerais los ojos y solo veis las lineas principales de un dibujo.

Filtros muy simples que detectan donde cambia el color en la imagen

| / --- \ | /

Capa 2: Combina bordes en formas

Junta esas lineas y bordes para formar figuras basicas: circulos, triangulos, rectangulos...

Las lineas de la capa anterior se combinan para formar geometria simple

O /\ [] <>

Capa 3: Reconoce partes de objetos

Con esas formas, la red empieza a ver partes de cosas: un ojo, una oreja, una pata, una nariz...

Combina las formas simples en partes reconocibles de objetos

ojo + oreja + nariz

Capa 4: Identifica el objeto completo

Finalmente, junta todas las partes y dice: es un gato! (o un perro, un coche, una persona...)

Combina todas las partes y clasifica el objeto con un porcentaje de confianza

= Es un gato!

El proceso completo: de foto a resultado

Asi es el recorrido completo que sigue una imagen dentro de una Red Neuronal Convolucional:

Imagen de entrada

224 x 224 pixeles (la foto que le dais)

Convolucion + Filtros

Busca patrones locales: bordes, esquinas, texturas...

Pooling (reduccion)

Reduce el tamano quedandose solo con lo importante

Se repite varias veces

Cada ronda detecta cosas mas complejas que la anterior

Capa densa (clasificacion)

Calcula las probabilidades de cada categoria

Resultado: gato (97.3%)

La IA dice lo que cree que es, con un porcentaje de confianza

Probad esto

Buscad en Google "Teachable Machine" de Google. Es una web gratuita donde podeis entrenar vuestra propia Red Neuronal Convolucional con la webcam: le ensenais varias poses diferentes y en pocos minutos la IA aprende a distinguirlas. Es increiblemente facil y no necesitais saber programar.

Idea clave

Una Red Neuronal Convolucional (CNN) es la IA que reconoce imagenes, analizandolas capa por capa: primero bordes, luego formas, despues partes y finalmente el objeto completo. Es la misma idea de como vuestro cerebro procesa lo que veis, pero con numeros. Una CNN moderna puede distinguir entre miles de objetos diferentes con mas del 95% de precision.