Escarbando en la red: herramientas para extraer y administrar datos

Escarbando en la red: herramientas para extraer y administrar datos

El valor más importante del periodismo de datos es su capacidad de potenciar el compromiso de servicio público de este oficio. El avance de la tecnología y la experimentación con nuevas formas de narrar ofrecen nuevas oportunidades para crear historias más atractivas, pero sobre todo con un rigor basado en el análisis y la depuración minuciosa de datos concretos. Bajo este premisa, los participantes del Taller de periodismo de datos en temas ambientales comenzaron a trabajar en proyectos en red, donde la clave es el trabajo colectivo e interdisciplinario. Durante toda la semana, los talleristas, bajo la guia de los maestros Mar Cabra y Matthew Caruana Galizia, desarrollarán sus propios proyectos de visualización de datos. Estas son algunas de las herramientas que han inspeccionado durante el taller y que son muy utilizadas en la labor diaria de los periodistas de datos. Extracción de datos y web scraping En la red abunda la información, sin embargo, no siempre es fácil extraerla de manera que se pueda analizar y convertirse en una base de datos que nos permita hacer búsquedas, cruces o segmentaciones. Por eso, existen herramientas que nos ayudan a obtener una buena materia prima a partir de la cual podamos encontrar y construir una buena historia periodística. A esta búsqueda, similar a escarbar para encontrar material valioso, se le conoce como web scraping. Uno de los tipos de archivos más "problemáticos" para extraer información son los PDF, pues están diseñados para que sean archivos de sólo lectura. Sin embargo, hay algunas herramientas que nos pueden ayudar a "exprimirles" información y convertirlos en archivos de Excel o HTML que nos permitan trabajar con ellos:   PDF to Excel online: Permite convertir los archivos PDF en Excel. El programa extrae de manera fiel los números, las columnas y las filas. CometDocs: Este programa gratuito permite extraer información de archivos PDF y convertirlos en Word, Excel, Power Point, entre otros. Zamzar: Esta herramienta en línea ofrece más 1.200 opciones de conversión de archivos de video, audio, imagen o lectura. Es gratuita. Tabula: Es una de las herramientas más utilizadas por las unidades investigativas de medios como ProPública, The Times of London y La Nación. Ofrece una interfaz sencilla para convertir un PDF en archivos CSV o Excel. Tesseract: es un programa de OCR (Reconocimiento óptico de caracteres) que permite convertir archivos de imagines en texto. Fine Reader: Otro programa de OCR que convierte imagines en archivos editables Open Calais: Esta herramienta desarrollada por la Agencia Reuters se propone organizar los contenidos en metadatas semánticos. Es decir, recibe un texto y lo analiza para identificar hechos, lugares, personas, etc, y presentarlos en format RDF, es decir de manera estandarizada para que sean reconicidos y entren a ser parte de una gigantesca base de datos "inteligente" -. Apachetika: Permite extraer metadatos y textos de una amplia varidad de formatos. De igual manera, cada navegador ofrece aplicaciones, extensiones o complementos que ayudan con la extracción de datos de archivos o de la web: FireFox Table2Clipboard: permite la extracción de tablas Chrome TableCapture: permite la extracción de tablas para usarlas en programas como Excel Chrome Scraper: Permite extraer información de sitios web y exportarla en archivos CSV. Este taller es parte de la alianza de CAF - banco de desarrollo de América Latina- y la FNPI, que tiene como objetivo estimular el profesionalismo, la independencia y la responsabilidad en la práctica del periodismo en los países de Iberoamérica, como estrategia encaminada a buscar que medios y periodistas ofrezcan a la sociedad una información de calidad que contribuya a un entorno institucional propicio para promover en estos países procesos de desarrollo integral basados en criterios de competitividad, equidad, gobernabilidad, sostenibilidad ambiental e integración regional.  El taller también es posible al apoyo de Canal Futura, aliado de la FNPI en el desarrollo de varias actividades de formación y reflexión periodística en Brasil. Durante toda la semana, estaremos compartiendo los principales aprendizajes que surjan de esta actividad. Aquí la presentación de los maestros

©Fundación Gabo 2021 - Todos los derechos reservados.