Vision por Computadora: como la IA aprende a ver
La Vision por Computadora(en ingles, Computer Vision) es la rama de la IA que permite a las máquinas "ver" y entender imagenes y videos. Es la tecnología detras del desbloqueo facial de vuestro movil, los filtros de realidad aumentada de Instagram y mucho mas.
¿Como "ve" un ordenador?
Para vosotros, una foto es una imagen con personas, colores y objetos. Para un ordenador, es solo una cuadricula gigante de numeros. Cada numero representa lo brillante que es un punto diminuto llamado pixel (0 = negro total, 255 = blanco total). Una foto del movil tiene MILLONES de estos pixeles.
Ejemplo simplificado: imagen de 8x8 pixeles en blanco y negro:
Cada cuadradito es un pixel con un numero. Una foto real de vuestro movil tiene millones de estos, cada uno con 3 valores: rojo, verde y azul (RGB).
¿Que puede hacer la IA con imagenes?
Mirar una foto y decir que hay en ella: ¿es un gato o un perro?
Senalar DONDE estan los objetos dentro de la imagen, como cuando el movil pone un cuadro alrededor de las caras
Separar cada objeto pixel a pixel. Es lo que usan los filtros de Instagram para cambiar el fondo detras de vosotros
Crear imagenes nuevas que no existian antes, como hace DALL-E o Midjourney cuando les pedis un dibujo
Aplicaciones que usais todos los dias
Desbloqueo facial
Vuestro movil reconoce vuestra cara entre millones de posibles rostros en milisegundos. Tambien es lo que usan los filtros de Instagram y Snapchat para detectar donde estan vuestros ojos, nariz y boca.
Coches autonomos
Detectan peatones, senales de trafico y otros coches para conducir sin conductor humano. Es como darle ojos y cerebro a un coche.
Diagnostico medico
Detectan tumores en radiografias. Un estudio demostro que la IA acierta el 97% de las veces, a veces mejor que algunos medicos.
Google Lens
Apuntais la camara del movil a algo y la IA os dice que es, lo traduce si es un texto en otro idioma, o busca donde comprarlo.
Probad esto
Abrid Google Lens en vuestro movil (o la camara de Google) y apuntad a cualquier objeto: una planta, un libro, un cuadro. La IA analizara la imagen y os dira que es. Tambien podeis apuntar a un texto en otro idioma y lo traduce en tiempo real. Eso es Vision por Computadora funcionando en vuestro bolsillo.
Idea clave
La Vision por Computadora ensena a las máquinas a "ver" convirtiendo imagenes en numeros (pixeles) y buscando patrones. Es lo que hace posible el desbloqueo facial, los filtros de Instagram, Google Lens y los coches autonomos.