Fotógrafo humano versus Inteligencia Artificial

Hemos entrado a una nueva era de la Inteligencia Artificial. Con su capacidad galopante para perfeccionar la generación de imágenes sintéticas que parecen fotografías reales, el periodismo puede caer en la trampa. El público, ni se diga.

Stephen Ferry

@stephenwardferry

Aunque sea tarde, los reporteros gráficos y fotógrafos de no ficción vemos con creciente preocupación cómo la Inteligencia Artificial (IA) se presta fácilmente para generar imágenes sintéticas que se hacen pasar por fotografías reales. Con frases escritas en lenguaje común y corriente, cualquier persona puede instruir programas como Dall- E2, Midjourney y Stability AI para que éstos produzcan imágenes falsas, incluso de alta calidad.

Actores maliciosos ya están empleando estos recursos para sembrar mentiras visuales a través de las redes sociales. Estos productos no solo pueden llevar al público a creer en embustes; también tienden a minar la confianza que la sociedad tiene en las imágenes periodísticas en general.

El bombero con seis dedos

Solo en las últimas semanas han salido algunos ejemplos aterradores del potencial que tiene esta tecnología para la impostura. Recientemente, estafadores trataron de engañar a la gente para que donara dinero a una institución de caridad falsa, para lo cual hicieron uso de una imagen sintética del terremoto en Turquía ocurrido el pasado 6 de febrero:

Hannah Gelbart, reportera de temas sobre desinformación global de la BBC, reporta que el engaño fue rápidamente descubierto y denunciado en Twitter, ya que el bombero aparece con seis dedos en la mano que sostiene a la niña con tan visible empatía.

Sin embargo, cada vez va a ser más difícil detectar las imágenes falsas, ya que la capacidad de la IA mejora con una rapidez asombrosa. En un artículo reciente, The Washington Post informa que la última versión de Midjourney ya es capaz de representar las manos de forma mucho más creíble que antes y que dentro de poco desaparecerá el detalle de los dedos deformes, que hasta ahora delataba las imágenes sintéticas.

La caja de Pandora

Otro ejemplo siniestro fue la imagen del supuesto arresto de Trump que circuló justo cuando salió la noticia de que el expresidente iba a tener que comparecer en Nueva York, imputado por la Corte. Como informa el Washington Post, Eliot Higgins (fundador de Bellingcat) utilizó Midjourney, en calidad de experimento, para producir una serie de imágenes que luego posteó en Twitter con la advertencia de que no eran reales. Sin embargo, se abrió la caja de Pandora. Sus “fotos” fueron reposteadas millones de veces, incluso por personas que creían que se trataba de un suceso que realmente pasó.

Una imagen como esta puede provocar reacciones peligrosas, sobre todo con el precedente violento del 6 de enero de 2021, cuando una turba de miles de personas leales a Trump asaltó el Capitolio, motivadas por la creencia de que la elección le había sido robada.

El momento preciso

Hay otro aspecto de la imagen falsa del arresto de Trump que me inquieta profundamente: la composición. Es digna de un fotoperiodista profesional que logró estar en el lugar que era, en el momento preciso y sin que la policía neoyorquina se lo impidiera (o algo peor); además, con la destreza necesaria para componer la imagen con criterio estético. Tales son las cualidades para que una imagen atrape la atención y quede en la memoria del público, por falsa que sea.

Confieso

A pesar de que llevo meses pensando este tema y que prefiero no verme a mí mismo como una persona ingenua frente a las redes sociales, caí facilito en la trampa. Cuando un amigo me mandó por WhatsApp la ahora famosa imagen del papa vestido a lo Balenciaga, me la creí y me dije, “oye, ¡el papa sí tiene su tumbao!". Me acuerdo que por un instante me entró la duda: “¿No será que es una imagen de IA?” Pero la descarté, y cedí frente a lo divertido que sería si el papa tuviera un estilo así. Mea culpa.

He ahí el meollo del asunto. Si caigo yo, un fotógrafo de no-ficción profesional, ¿qué puede pasarle a los demás? De aquí en adelante, a menos que desarrollemos métodos y herramientas para distinguir entre imágenes sintéticas y fotografías reales, el público va a estar indefenso frente a la avalancha de desinformación que se nos viene encima.

Cazucá vista por la IA

Invito a reflexionar sobre la comparación que presento aquí entre fotografías tomadas por este ser humano e imágenes sintéticas generadas por IA. Los resultados del experimento me parecen curiosos, perturbadores, hasta extraños. La máquina creó escenas que se mueven entre lo fantástico, lo sórdido y lo exótico.

Es preocupante que los sistemas de IA reflejan los sesgos, los gustos y el desconocimiento de los programadores que los crearon, de manera que tienden a fortalecer estereotipos racistas, sexistas y de clase social. Además, como la IA se entrena con material recogido de internet, de los medios de comunicación y de las redes sociales, los sesgos existentes pueden consolidarse aún más.

Motivado por esto decidí construir un ejercicio que consiste en comparar imágenes reales, tomadas por mí, con simulaciones generadas por la IA. Primero, fotografié a personas jugando tejo y rana y redacté pies de foto que describen el contenido de la imagen y su ubicación. Luego, introduje esas mismas frases en Stability AI, un programa abierto al público en línea, para ver qué imágenes producía.

La investigación tuvo como base Cazucá, un conjunto de barrios en el sur de Bogotá y en Soacha, mayormente poblado por gente campesina desplazada por la violencia. Me interesaba ver si los programas de IA replicaban los estigmas que los medios de comunicación han circulado por años sobre este territorio. Cazucá está en la periferia urbana y es generalmente pintada como indeseable y altamente peligrosa; toda una zona roja.

En los ejemplos que verán a continuación, la primera foto fue tomada por mí. La imagen que sigue fue producida por la IA usando como pista la frase “Hombres juegan turmequé. Altos de Cazucá, Colombia”.

Hombres juegan turmequé. Altos de Cazucá, Colombia. (Fotógrafo humano)

Hombres juegan turmequé. Altos de Cazucá, Colombia (Stability AI)

En el siguiente caso también la primera foto fue tomada por mí, y la otra fue producida por Stability AI a partir de la frase “Hombre y mujer se abrazan mientras sus amigos juegan rana. Altos de Cazucá, Colombia.”

Hombre y mujer se abrazan mientras sus amigos juegan rana. Altos de Cazucá, Colombia. (Fotógrafo humano)

Hombre y mujer se abrazan mientras sus amigos juegan rana. Altos de Cazucá, Colombia. (Stability AI)

Más allá de las deformaciones de los cuerpos (una falla del sistema que tenderá a desaparecer), en esta serie se nota que la IA pinta Cazucá como escenario de tragedia, lejos del ambiente de amistad desenvuelta que sentí en la escena real que fotografié. ¿Será que esto tiene que ver con que las imágenes usadas para entrenar el programa fueron tomadas de los medios y éstos tienden a visitar Cazucá solo cuando suceden actos de violencia? ¿El sesgo es inherente a la IA o es producto de sesgos ya existentes en los medios y en las redes sociales?

Etiquetas:

Inteligencia artificial

Fotógrafo humano versus Inteligencia Artificial

El bombero con seis dedos

La caja de Pandora

El momento preciso

Confieso

Cazucá vista por la IA

“Los contenidos violentos circularán más”: consecuencias de acabar con la verificación de hechos en Facebook (Meta)

Día del Periodista en Colombia: resistencia desde el periodismo para fortalecer la democracia

Día del Periodista en Colombia: resistencia desde el periodismo para fortalecer la democracia

“Los contenidos violentos circularán más”: consecuencias de acabar con la verificación de hechos en Facebook (Meta)

Reflexiones éticas de un año de desafíos para el periodismo

Karen Hao: “La industria de la IA intenta extraer recursos de todo el mundo para su propio beneficio”

"La ética del recuerdo" de Javier Darío Restrepo a 92 años de su nacimiento