¿Cómo están usando los medios en español el procesamiento de lenguaje por medio de inteligencia artificial?

25 de June de 2021

@cesarisch

Ante el rápido avance de la tecnología, la industria periodística se ve inevitablemente forzada a adaptarse. La inteligencia artificial es uno de esos avances tecnológicos que el periodismo no se puede dar el lujo de ignorar.

Así lo considera la Knight Foundation, organización sin fines de lucro de Estados Unidos que impulsa el desarrollo del periodismo a través de distintos fondos y que desde 2017 ha financiado proyectos para incentivar la incorporación de la inteligencia artificial a los medios de comunicación.

En mayo de 2021, la Knight Foundation anunció un fondo de 3 millones de dólares para impulsar el uso de la inteligencia artificial en medios de comunicación locales en ese país.

Para diseñar esa iniciativa, la organización ordenó una investigación global para entender el panorama actual del uso de estas tecnologías en medios de todo el mundo y saber cómo el periodismo está usando la inteligencia artificial, el aprendizaje automático y otros tipos de automatización.

“Nos dimos cuenta de que la inteligencia artificial no es completamente extraña para los medios. De hecho, algunas redacciones ya la están usando”, dijo a la Fundación Gabo Paul Cheung, director de periodismo e innovación tecnológica de la Knight Foundation. “Pero saber para qué la están usando nos dio una idea de cómo queríamos enfocar la iniciativa”.

La investigación, que consideró 130 proyectos periodísticos realizados los últimos tres años en varios países del mundo, arrojó que 47 por ciento de los medios estudiados estaban usando inteligencia artificial para aumentar la capacidad de su reportería, en actividades que toman mucho tiempo y recursos a seres humanos, como analizar grandes cantidades de datos, localizar información o extraer contenido de bases de datos.

De entre los trabajos estudiados, tres corresponden a medios de habla hispana: El País (España), El Universal (México) y Chequeado (Argentina). Aunque con distintos propósitos, los tres medios usaron algún tipo de procesamiento de lenguaje natural con machine learning para el desarrollo de sus proyectos.

Los expertos creen que este tipo de inteligencia artificial es de los que mayor potencial podrían tener en el periodismo, ya que contribuye a ahorrar tiempo, recursos y a hacer más eficiente el trabajo de los periodistas en tareas repetitivas como la detección de información engañosa, la clasificación de contenido y la moderación de foros de opinión.

“Estamos ayudando a las redacciones a entender estas tecnologías y a desarrollar planes estratégicos alrededor de estas para que decidan cuándo usar la inteligencia artificial, cómo la aplicarían y cómo la llevarían a otro nivel”, dijo Cheung.

A continuación, un repaso de los proyectos de los medios hispanohablantes considerados en la investigación de la Knight Foundation, sus experiencias, aprendizajes y resultados a partir del uso del procesamiento de lenguaje natural por medio de la inteligencia artificial.

Check out our new project w/ @el_universal_mx - using machine learning & data analysis to find 'zones of silence' in homicide reporting.

Link: https://t.co/UgNvxxN0oP

Blog post: https://t.co/v0rxciG0IR

Great work by: @estroman team @AlbertoCairo @gilbertoleon @dalequark & more pic.twitter.com/7l7LAEwH1H
— Simon Rogers (@smfrogers) June 13, 2019

Inteligencia artificial para medir el silencio

En noviembre de 2019, la UNESCO alertó que México era el segundo país más peligroso para ejercer el periodismo, solo superado por Siria. El organismo detalló en un informe que 53 comunicadores habían perdido la vida de forma violenta en ese país entre 2014 y 2018.

Meses antes de dicho reporte, periodistas del diario El Universal ya sospechaban que había regiones enteras en México donde los medios habían optado por no cubrir los hechos de violencia por parte de grupos criminales o autoridades, por temor a poner en riesgo las vidas de sus reporteros.

Cuando ese año Google News Initiative se acercó a El Universal para realizar una colaboración, el periódico propuso hacer una investigación para medir ese silencio que la violencia estaba provocando en el periodismo mexicano. El resultado fue “Zonas de Silencio”, un proyecto de periodismo de datos que, con la ayuda de herramientas de inteligencia artificial y machine learning, midió la ausencia de cobertura noticiosa sobre homicidios en el país.

El equipo de Google puso a disposición de El Universal su API de Lenguaje Natural y la base de datos de noticias de Google News, con lo que el diario pudo realizar una selección de cientos de miles de noticias sobre homicidios en México en un periodo de 15 años y contrastarlas con los registros oficiales de homicidios en ese mismo lapso.

La API de Lenguaje Natural de Google ayudó a filtrar y clasificar la enorme cantidad de noticias, así como a determinar la ubicación de cada homicidio, el periodo en el que ocurrieron los hechos y algunas características de los crímenes.

“(La herramienta) nos ayudó sobre todo a curar la información en bruto que teníamos para saber que era precisa, geolocalizarla y ubicarla en el tiempo”, dijo a la Fundación Gabo Esteban Román, editor de El Universal. “Eso fue un proceso que duró tres o cuatro días. De haberlo manualmente, hubiéramos requerido decenas o cientos de periodistas haciendo un trabajo que además hubiera tenido muchos huecos porque un humano comete muchos errores que la máquina no comete”.

El equipo humano del proyecto se encargó de una tarea más compleja: crear la metodología para determinar qué variables se iban a tomar en cuenta para medir algo tan abstracto como el silencio. Con ayuda de la economista Elsa Hernández, el equipo diseñó una fórmula para medir la proporción en la que la prensa había reportado los homicidios en México cada año.

“Si simplemente hubiéramos contrastado asesinatos vs. noticias, se hubieran colado en nuestra investigación cosas que no debían estar ahí, como el hecho de que en 2015 había menos medios de noticias”, dijo Román. “La única manera de medir el silencio era comparando las noticias consigo mismas. Es decir, qué tanto aumentó la proporción de noticias reportadas en un periodo de tiempo determinado”.

La API de Lenguaje Natural está basada en la tecnología que Google utiliza para sus algoritmos de búsqueda. Utiliza el aprendizaje automático para procesar e interpretar textos e identificar información en ellos. En el caso de “Zonas de Silencio”, la herramienta ayudó a distinguir hechos similares y a diferenciar entre una nota inicial y una de seguimiento, por ejemplo.

“La máquina ubicó que una cosa llamada ‘Chihuahua’ no era un perro chihuahua sino que, por la combinación de palabras, sabía que eso era un lugar llamado ‘Chihuahua’ en el país llamado ‘México’”, explicó Román. “Es ahí donde la inteligencia artificial funciona, donde sería humanamente imposible -o posible, pero con muchos márgenes de error- que pusiéramos a 100 personas a revisar 300 mil notas para ver dónde están ubicadas esas noticias”.

La herramienta en corto:

Nombre: API de Lenguaje Natural de Google Cloud

Tipo: Procesamiento del lenguaje natural y machine learning

Desarrollador: Google

Principal función en periodismo: Análisis de texto

Etapa del proceso periodístico: Reportería

Disponibilidad: A través de la suite de inteligencia artificial de la Google Cloud Platform

Perspective allows developers to help publishers & journalists fight online harassment https://t.co/4m1dC7gf2u #pressfreedom pic.twitter.com/Ed0GsUmgZe
— Jigsaw (@Jigsaw) May 3, 2017

Una herramienta para ‘desintoxicar’ la web

En épocas de campañas electorales o momentos de alta polarización política, los medios de comunicación se vuelven comúnmente blanco de ataques, amenazas y todo tipo de mensajes violentos tanto en redes sociales como en sus propias plataformas.

Muchos medios de comunicación han eliminado los espacios de comentarios en sus notas de internet para evitar esta toxicidad, pero otros, como El País, han optado por alternativas de moderación de esos comentarios para mantener abierto el diálogo con sus lectores.

En diciembre de 2018 el diario español comenzó a usar Perspective, una herramienta de aprendizaje automático y análisis de lenguaje capaz de detectar comentarios tóxicos o que incumplen las normas del uso en foros de opinión. Fue la primera vez que la herramienta -desarrollada por Jigsaw, la unidad dentro de Google dedicada a crear soluciones en favor de la libertad de expresión en la web- era usada para analizar comentarios en español.

En el sitio de El País, Perspective indica a los usuarios si su mensaje podría ser considerado tóxico mientras lo están escribiendo. Antes de publicar, los lectores pueden ver una calificación de entre 1 y 100 que indica qué tanto su comentario se asemeja a los considerados nocivos por el algoritmo.

“Perspective está entrenado para reconocer una variedad de atributos en el texto usando millones de ejemplos recolectados de varias plataformas en línea y revisados por anotadores humanos”, explicó un representante de la herramienta a Fundación Gabo. “La toxicidad es uno de los atributos que Perspective puede calificar, además de identificar si un comentario es amenazante, ofensivo o irrelevante”.

La herramienta también ayuda a los moderadores de estos foros -que en el caso de El País, es personal de la empresa externa Interactora- a priorizar la revisión de comentarios que han sido calificados como potencialmente tóxicos.

“Perspective puede ayudar a hacer la moderación más eficiente mediante la clasificación y señalización automática de comentarios, pero recomendamos ampliamente que siempre haya un humano en el proceso para tomar decisiones de moderación”, añadió el representante.

A cerca de dos años de la instalación de la herramienta, la toxicidad media en los comentarios en el sitio web de El País ronda el 20 por ciento, indicó Pablo Delgado, director de Producto del diario, a la Fundación Gabo.

Cuando el periódico lanzó su programa de suscripciones digitales, en mayo de 2020, la posibilidad de escribir comentarios en las notas se volvió exclusiva de los usuarios con membresía de pago. El volumen de comentarios cayó de cerca de 10.000 al día a alrededor de 1.000 actualmente. Sin embargo, los suscriptores han recibido positivamente la nueva política y valoran el fomento de conversaciones sanas.

“El uso de Perspective y las nuevas normas han mejorado el área de comentarios, pero aún está lejos del potencial que tienen”, agregó Delgado. “Estamos contemplado posibles acciones adicionales, como por ejemplo resaltar comentarios destacados de lectores, o crear una newsletter con los mejores comentarios, que ayuden a alcanzar ese potencial”.

Para El País, el área de comentarios en sus notas es el canal más importante de comunicación con sus lectores. De ahí la importancia de haber recurrido a herramientas de inteligencia artificial para mantener ese espacio libre de toxicidad y violencia.

La herramienta en corto:

Nombre: Perspective

Tipo: Machine learning y curación algorítmica

Desarrollador: Google Jigsaw

Principal función en periodismo: Moderación de comentarios

Etapa del proceso periodístico: Relación con la audiencia

Disponibilidad: A través de la suite de machine learning de la Google Cloud Platform

Eso sucede con el equipo que con Pablo forman @gauyo (Innovación), @svenditti (Comunicación), @falconius, @joacosaralegui y Pilar Castro en desarrollo, @dianaagustinaf en redes sociales y @FeranMatias en la flamante área de video. ¡De varias maneras también es parte #Chequeabot! pic.twitter.com/MkQJejojNy
— Chequeado (@Chequeado) October 30, 2020

El robot que detecta mentiras

El medio especializado en fact-checking Chequeado, de Argentina, lleva casi un lustro apoyándose en tecnología de inteligencia artificial para aumentar su capacidad de verificación del discurso.

Hoy en día, su herramienta estrella es Chequeabot, un sistema basado en procesamiento del lenguaje natural y aprendizaje automático cuyo desarrollo comenzó en 2016. Se trata de una herramienta pionera en la automatización de la verificación de datos en español. Su función es escanear noticias e identificar declaraciones verificables de funcionarios públicos, que luego relaciona con verificaciones previas.

“Hoy, la mitad de los chequeos de frases son a partir de frases encontradas por este robot. Lo que encuentra el Chequeabot es el insumo que usa la redacción para chequear frases”, contó a la Fundación Gabo Pablo M. Fernández, director de innovación de Chequeado. “El jefe de redacción puede empezar el día viendo esta interfaz y las notas y frases chequeables de más de 30 medios del Congreso y la fuente presidencial”.

En los últimos cinco años, Chequeado ha mejorado y optimizado a Chequeabot. En 2020, la herramienta fue incorporada a WhatsApp para ayudar a verificar contenidos recibidos por sus lectores.

Un año antes, la organización ganó el fondo Google AI Impact Challenge junto a los medios de fact-checking Full Fact (Inglaterra) y AfricaCheck (Sudáfrica, Nigeria, Senegal y Kenia), gracias al cual desarrollaron en conjunto un sistema similar que funciona con textos tanto en español como en inglés.

En colaboración con Full Fact, que tiene además su propio desarrollo de inteligencia artificial para verificación de datos en inglés, Chequeado trabaja para conectar Chequeabot a diferentes bases de datos gubernamentales, para ayudarles a verificar declaraciones sobre datos públicos.

Chequeado es prueba de que casi cualquier medio pequeño o mediano en América Latina puede beneficiarse de la inteligencia artificial. Pero también es prueba de la importancia de contar con su propio laboratorio de innovación interno, enfocado en la experimentación, el desarrollo de nuevos productos y el crecimiento del impacto de la organización.

“Nos dimos cuenta que nos era super útil tener tiempo para investigar, para entender cuál es la lógica de trabajo de un desarrollador o de alguien que trabaja en usabilidad”, dijo Fernández. “Hay un montón de herramientas, algunas no son caras y muchas son baratas o gratis, que te facilitan el día a día. Pero si estás corriendo de allá para acá, entre deadlines es difícil que puedas tomarte un rato para investigar y encontrar una herramienta para ayudarte a hacer esto o aquello”.

La herramienta en corto:

Nombre: Chequeabot

Tipo: Procesamiento del lenguaje natural y machine learning

Desarrollador: Chequeado

Principal función en periodismo: Detección de información engañosa

Etapa del proceso periodístico: Reportería

Disponibilidad: Código de la herramienta disponible en GitHub

Sobre este proyecto

La Fundación Gabo en alianza con Google News Initiative buscan descubrir, analizar y presentar las más valiosas iniciativas de innovación periodística que se están produciendo en Iberoamérica.

Puedes conocer más sobre esta iniciativa y compartir tus casos de innovación a través de este formulario.

La selección de casos que se publican en este espacio está a cargo de Ismael Nafría (España), director de la revista National Geographic España, y Olga Lucía Lozano (Colombia), directora de En Modo P. La coordinación del proyecto desde la Fundación Gabo está a cargo de Karen De la Hoz, directora de comunicaciones.

¿Cómo están usando los medios en español el procesamiento de lenguaje por medio de inteligencia artificial?

Sobre nosotros

Red de portales

Síguenos en