IBM SkillsBuild/Vision por computadora

Vision por Computadora: como la IA aprende a ver

La Vision por Computadora(en ingles, Computer Vision) es la rama de la IA que permite a las máquinas "ver" y entender imagenes y videos. Es la tecnología detras del desbloqueo facial de vuestro movil, los filtros de realidad aumentada de Instagram y mucho mas.

¿Como "ve" un ordenador?

Para vosotros, una foto es una imagen con personas, colores y objetos. Para un ordenador, es solo una cuadricula gigante de numeros. Cada numero representa lo brillante que es un punto diminuto llamado pixel (0 = negro total, 255 = blanco total). Una foto del movil tiene MILLONES de estos pixeles.

Ejemplo simplificado: imagen de 8x8 pixeles en blanco y negro:

240
240
240
180
120
60
60
120
240
240
180
100
50
30
60
120
240
180
100
40
20
30
80
140
200
120
40
20
10
20
60
120
180
100
30
10
10
30
80
140
200
140
60
30
20
50
100
160
220
180
120
80
60
80
140
200
240
220
180
140
120
140
180
220

Cada cuadradito es un pixel con un numero. Una foto real de vuestro movil tiene millones de estos, cada uno con 3 valores: rojo, verde y azul (RGB).

¿Que puede hacer la IA con imagenes?

Clasificacion

Mirar una foto y decir que hay en ella: ¿es un gato o un perro?

Deteccion

Senalar DONDE estan los objetos dentro de la imagen, como cuando el movil pone un cuadro alrededor de las caras

Segmentacion

Separar cada objeto pixel a pixel. Es lo que usan los filtros de Instagram para cambiar el fondo detras de vosotros

Generacion

Crear imagenes nuevas que no existian antes, como hace DALL-E o Midjourney cuando les pedis un dibujo

Aplicaciones que usais todos los dias

Desbloqueo facial

Vuestro movil reconoce vuestra cara entre millones de posibles rostros en milisegundos. Tambien es lo que usan los filtros de Instagram y Snapchat para detectar donde estan vuestros ojos, nariz y boca.

Coches autonomos

Detectan peatones, senales de trafico y otros coches para conducir sin conductor humano. Es como darle ojos y cerebro a un coche.

Diagnostico medico

Detectan tumores en radiografias. Un estudio demostro que la IA acierta el 97% de las veces, a veces mejor que algunos medicos.

Google Lens

Apuntais la camara del movil a algo y la IA os dice que es, lo traduce si es un texto en otro idioma, o busca donde comprarlo.

Probad esto

Abrid Google Lens en vuestro movil (o la camara de Google) y apuntad a cualquier objeto: una planta, un libro, un cuadro. La IA analizara la imagen y os dira que es. Tambien podeis apuntar a un texto en otro idioma y lo traduce en tiempo real. Eso es Vision por Computadora funcionando en vuestro bolsillo.

Idea clave

La Vision por Computadora ensena a las máquinas a "ver" convirtiendo imagenes en numeros (pixeles) y buscando patrones. Es lo que hace posible el desbloqueo facial, los filtros de Instagram, Google Lens y los coches autonomos.