Medialab Prado

Compartir

Periodismo de datos. Vigésima sesión. Taller de Web Scraping con Kimono y limpieza de datos con Open Refine. Presentación de CEPID.

27.11.2014 17:00h - 20:00h

Lugar: Auditorio (2ª Planta / 2nd Floor)

Cumplimos veinte sesiones y lo celebramos con la presentación del proyecto CEPID, el Centro Español de Periodismo de Investigación y Datos, creado recientemente por iniciativa de algunos participantes en esta comunidad, quienes también nos ofrecerán un taller repasando dos de las herramientas que expuso Nicolas Kayser-Bril en la primera sesión de octubre del Taller de Producción de Periodismo de Datos (taller que continúa en diciembre): Kimono para web scraping y Open Refine para limpieza de datos.

Si no pudiste asistir a la primera sesión del taller de producción o te quedaste con ganas de practicar in situ con las herramientas expuestas, ¡no te pierdas este taller!

[streaming en directo]

imagen CEPID

Programa

17:00-17:45 - Presentación de Cepid y de uno de sus proyectos: la que has armado, España, por Frank Belyeu [Ver Vídeo]

CEPID es una agencia independiente nacida con la vocación de rastrear la realidad, desde los datos más áridos a la calle, en busca de noticias. Frank Belyeu (@fbelyeu) nos introducirá en la agencia de la mano de uno de sus primeros proyectos, La que has armado, España, donde contará cómo lo han desarrollado, qué problemas han surgido por el camino y qué vías de investigación se han abierto. Consiste en una radiografía de las exportaciones de armas españolas durante los últimos seis años a través de un mapa interactivo realizado con la librería D3.js en el que el usuario puede elegir con qué criterios explorar las distintas operaciones: por año, por tipo de (material de defensa, armas de caza y tiro deportivo, material antidisturbios y tecnologías de doble uso), por tipo de operación (ventas autorizadas y realizadas, donaciones y denegaciones) y por situación del país de destino. Este último punto es especialmente interesante, ya que revela que España vendió material a países sumidos en conflictos o tensiones graves.

17:45-18:00 - Descanso

18:00-20:00 - Extracción y limpieza de datos con Kimono y Open Refine, con Javier Galán y Leyre Pejenaute.

Scrapea sitios web sin necesidad de programar con Kimono [Ver Vídeo]

Javier Galán (@Antonmileo) aborda el taller de Kimono como parte del proceso de investigación periodística que comienza por conseguir los datos. En ocasiones tendremos suerte y esos datos estarán disponibles para su descarga en una base de datos pública. Pero la mayoría de las veces tendremos que bucear en la nube para encontrarlos y extraerlos en un formato que podamos manejar. Las páginas web son una mina de datos, pero scrapearlas mediante programación no está al alcance de cualquiera. De ahí la utilidad de la herramienta gratuita Kimono, que reconoce patrones en los sitios web y los convierte en API’s estructuradas con las que poder trabajar y que veremos en la primera parte del taller.


Deja tus datos como los chorros del oro con Open Refine [Ver Vídeo]

Leyre Pejenaute (@Leyretxuu) nos ayudará a limpiar los datos. En la inmensa mayoría de casos, los datos estarán en un formato poco conveniente, o habrá columnas innecesarias, o duplicados, o celdas fusionadas, o errores ortográficos… Todos estos casos suponen obstáculos añadidos para analizar los datos y seguir adelante con la investigación. La segunda parte del taller profundizará en el manejo de la herramienta gratuita y de código abierto Open Refine y en sus distintas utilidades a través de ejemplos y casos prácticos.

 

Comentarios

Los participantes deberán traer su propio ordenador portátil. Para agilizar la introducción al taller y ahorrar tiempo se recomienda traer preinstaladas ambas herramientas. Pueden descargarse desde Kimono y Open Refine.

 

Enlaces

CEPID: http://www.cepid.es/
Kimono: http://www.kimonolabs.com/
Open Refine: http://www.openrefine.org/


Condiciones de uso