Novedades

¿Qué sucede en tu smartphone cada vez que sacás una foto?

11/10/2022
Hoy, todos nos sentimos un poco más fotógrafos profesionales gracias a las cámaras de nuestros smartphones. Muchas veces, nos sorprendemos a nosotros mismos con las imágenes que logramos capturar: "¡Mirá qué foto!", comentamos orgullosos. Sin embargo, estas tomas fotográficas tienen detrás una ingeniería que desconocemos y que impresiona a cualquiera.
¿Qué sucede en tu smartphone cada vez que sacás una foto?

¿Qué sucede en nuestros smartphones cuando tomamos una foto? ¿Estamos tomando una única foto? ¿Cómo se construye la imagen que vemos en la pantalla de nuestro celular? ¿Qué rol cumple la inteligencia artificial en esos procesos? 

Sobre estos y otros temas hablamos con el Dr. Andrés Ferragut, docente de la Facultad de Ingeniería de ORT.

¿De qué forma toman fotos los smartphones de última generación?

Hoy, producto del sensor digital y la capacidad de cómputos que tienen los smartphones como el iPhone, en lugar de tomar una única toma de la imagen, se realizan varias tomas, con diferentes ajustes para combinarlas después en la imagen que vemos como producto final.

El iPhone, específicamente, tiene un proceso interno de revelado, que sería análogo al revelado tradicional, pero en lugar de tomar una única imagen, toma varias. Desde antes de apretar el botón de "tomar imagen", el dispositivo ya está tomando registros.

Luego de apretar el botón de "tomar imagen", el iPhone hace un revelado en el que combina todas las tomas que realizó en una sola imagen: la que vemos en la pantalla.

Para eso, se utiliza una gran capacidad de cómputos en el propio celular. Esto se logra mediante algoritmos de machine learning que han sido entrenados por Apple (en el caso de iPhone). Hoy, casi todos los fabricantes hacen esto, en mayor o menor medida.

¿Cómo es este proceso en comparación con la toma de fotos que realiza una cámara reflex?

Las cámaras tradicionales, ya sea de rollo o de sensor -las reflex profesionales, por ejemplo- tienen un visor por el que se enfoca y se prepara la imagen. Los ajustes de apertura, tiempo y sensibilidad se realizan antes de tomar la fotografía. Si bien hay cámaras modernas que toman más de una imagen, lo común es que se tome una sola, que después se revela.

Básicamente, la mayor parte de los ajustes se definen antes de tomar la imagen. Después, se puede trabajar sobre el resultado. Históricamente, en la fase de revelado de la película se variaban los químicos para lograr mayores o menores contrastes, por ejemplo. Este procesamiento, luego, se digitalizó, pero la información es una: la que llegó al sensor.

Entonces, lo que cambia con las cámaras de los dispositivos celulares es que ya no tenemos una única imagen, sino que hay una combinación de varias imágenes. Por eso se logran cosas que pueden parecer increíbles y que no se podrían lograr con una única toma.

Deep Fusion es la versión de procesamiento de imágenes neuronales de Apple. ¿Cómo funciona?

Deep Fusion es el algoritmo de Inteligencia Artificial y basado en redes neuronales, que utiliza Apple. Estos algoritmos requieren muchos datos para ser entrenados y en eso juega la fotografía digital.

El hecho de que haya fotografía digital -que es mucho más económica en obtención y almacenamiento que la fotografía analógica- permite que dispongamos de millones de imágenes. Así, cuando cargamos imágenes en Google Fotos o espacios similares, estas sirven para entrenar algoritmos como Deep Fusion.

A partir de estas grandes bases de imágenes se han entrenado mecanismos de detección de personas, de mejoramiento de imagen o de contraste, por ejemplo. De esa forma, se entrena al algoritmo -en este caso Deep Fusion- con múltiples imágenes hasta obtener el resultado deseado.

Ese algoritmo entrenado se carga en el sistema operativo del celular y, cada vez que uno "toma una foto", lo que hace el celular es hacer varias tomas, correr este algoritmo y presentar el resultado final.

El vicepresidente de Apple, Phil Schiller, definió Deep Fusion como la "ciencia loca de la fotografía computacional". ¿Qué significa esto?

Esto es porque lo que han hecho, básicamente, es "poner toda la carne en el asador" para desarrollar algoritmos y alcanzar resultados inimaginables que, quizás, podrían sustituir al revelado manual. Es decir, esa fase de estudiar la foto, ver qué zonas realzar y demás -que se puede hacer con programas de manejo de imágenes- de alguna forma es sustituido por un algoritmo que lo hace automáticamente.

La segmentación y la comprensión de cada segmento son clave en la toma de fotografías de iPhone. ¿Qué significa esto y cómo se determinan estos segmentos?

Hay que hacer una segmentación y una comprensión de cada segmento. Eso quiere decir que hay que determinar los componentes de la imagen. Eso se hace mediante un procedimiento de inteligencia artificial. Se entrena un algoritmo para detectar distintos componentes de una imagen.

Una de las cosas más desafiantes ha sido detectar qué cosas tiene una imagen. Cuando surgió la inteligencia artificial -en la década del '70- se pensó que sería algo fácil de resolver y, sin embargo, ha llevado muchos años de trabajo.

Hoy, se puede cargar una imagen en Google Fotos y Google puede determinar: "Esta foto tiene una botella", o "Esta foto tiene un tren" o, incluso, "Esta foto es de un cumpleaños". Es decir que trata de entender qué tipo de imagen es e incluso permite filtrar por tipo de imagen.

Todo eso se entrena a través de la información de millones de imágenes. Por ejemplo, se catalogan imágenes de cumpleaños como tales y se les da a las redes neuronales la posibilidad de encontrar cuáles son las coincidencias entre estas imágenes.

¿Se podría decir que las fotografías que tomamos con nuestros iPhone son en realidad construcciones?

La fotografía termina siendo una construcción que hace el dispositivo, a través de algoritmos que fueron entrenados en computadoras más potentes. Es sorprendente que la capacidad de cómputos que uno tiene en el bolsillo disponga de un revelador automático de fotos.

El efecto clásico que se toma como medida es el de desenfoque: los rostros aparecen enfocados y lo demás no. Ese efecto tiene que ver con la profundidad de campo de la imagen. Normalmente, se lograba con un lente de alta apertura, que genera una estrecha profundidad de campo. Es difícil de lograr con una cámara tradicional.

Hoy, el efecto "se logra solo". Se detectan los rostros, se toman varias imágenes. De esas imágenes, se identifica cuál es la que tiene el rostro mejor enfocado y se desenfoca el resto. Así se genera una imagen de retrato, tan característica.

Estos efectos estaban al alcance únicamente de profesionales y ahora están al alcance de cualquier persona con un smartphone. Ya no tomamos fotografías con un clic, sino que estamos utilizando algoritmos entrenados y el poder de cómputos para que las fotografías queden mejor.

El desarrollo de la inteligencia artificial a nivel fotográfico en iPhone, ¿es el mismo que en otros dispositivos?

El iPhone ha hecho punta con esto. Han sido insistentes en que la cámara sea un factor distintivo, pero también es un factor de competencia. Es decir, todos los otros fabricantes están tratando de lograr las mejores cámaras y, hoy, las mejores cámaras ya no son las que tienen mejores lentes o sensores. Gran parte del partido se juega en el revelado. Todo esto es un área abierta de investigación en machine learning.

Nosotros, en ORT, trabajamos en esto. En el equipo del Diploma de Especialización en Analítica de Big Data y del Master en Big Data hay equipos de investigación, integrados por docentes y estudiantes, trabajando en nuevos algoritmos de Inteligencia Artificial, por ejemplo, para este tipo de cosas.

Recursos académicos