Medialab Prado

Compartir

Open Analytics: ingestión, procesamiento, análisis y visualización de datos

25.06.2015 19:00h

Lugar: Alameda 1 (1ª planta - 1st floor)

Último meetup de este primer semestre de 2015. En este encuentro se realizarán cuatro charlas de unos 20 minutos sobre ingestión, procesamiento, análisis y visualización de datos. Las herramientas de las que se hablará serán: Apache Storm, ElasticSearch, R, Neo4j, Gephi, Apache Spark, Apache Kafka.

1ª charla. Titulo: Pérez, necesito un informe de todo lo que está pasando. ¡Y lo quiero para ayer!

Ponente: Sergio-Nabil Khayyat (@sergio_khayyat)

 
Una crisis de reputación, el lanzamiento de un nuevo producto, un nuevo competidor... Todas estas situaciones tienen algo en común: ruido en las redes sociales; y mucho. Y eso solo quiere decir una cosa: un gran volumen de información viajando a gran velocidad. 

Afortunadamente existen proyectos open source como Apache Storm o Elasticsearch, gracias a los que podemos lidiar con estas avalanchas de información y construir una solución como Lynguo, capaz de analizar millones de tweets en tiempo real y sacar conclusiones en segundos.

2ª charla. Titulo: Sitios web como grafos - análisis para SEO

Ponente: Rubén Martínez (@ruben_at_it)

 
Esta charla puede resultar de interés no sólo para SEOs y especialistas en marketing sino para cualquiera que trabaje con grafos.  

Los rastreadores de Google y otros buscadores necesitan páginas web bien conectadas unas con otras. Los grandes sitios web de ecommerce, de noticias y agregadores son grafos con cientos de miles de vértices (páginas web) y aristas (enlaces entre ellas). Entender dichos grafos tiene aplicación directa en usabilidad y SEO ¿Cómo podemos utilizar herramientas de open source para entender los grafos de sitios grandes o complejos?  

En esta charla veremos qué fases del análisis:
 
  • Fase de data mining: crawling y limpieza con one-liners en bash 
  • Fase de análisis: librería igraph en R y Neo4j  
  • Fase de visualización: Gephi
 

3ª charla. Titulo: ¿Cómo construir una herramienta de segmentación de clientes en 24h?

Ponente: Javier Di Deco Sampedro (@jdideco)

 
Seguramente alguna vez has querido presentar los resultados de tus análisis de una forma más dinámica y atractiva que el típico PowerPoint. Aún más, incluso disponer de un sencillo prototipo que permita explorar y jugar con los datos y los parámetros. Uno de los lenguajes Open Source por excelencia, R, dispone de una biblioteca, Shiny, que facilita enormemente la creación de Dashboards interactivos accesibles vía web, con toda la funcionalidad por debajo que ofrece R. Os contaré cómo la aplicamos para resolver y presentar exitosamente el problema que se planteó para el I-COM Data Science Hackathon. El primer objetivo era predecir la probabilidad de respuesta de los clientes ante campañas de marketing y, a partir de ahí, extraer los insights apropiados para optimizar dichas campañas, aumentando la probabilidad que los clientes respondan satisfactoriamente. Parte de la dificultad venía dada por la típica limitación temporal de 24h de este tipo de competiciones, de ahí la importancia y el valor añadido de usar Shiny por su agilidad.

3ª charla. Titulo: Spark + Kafka

Ponente: Juantomás García (@juantomas)

 
Cómo te puede cambiar la vida, y tu arquitectura de big data, usar spark y kafka en tus proyectos. 
Condiciones de uso