[Py-MAD] Big Data Week Madrid

Wed Nov 4 22:58:36 CET 2015

Yo lo vi hace poco, sí. 

Hombre, en el fondo siempre puedes tirar de libhdfs (que es la API C de hdfs), que tira de Java netlib. Existe ya una implementación en Cython que utiliza libhdfs para leer y escribir en el cluster.

Realmente no puedes escribir “de verdad” en hdfs sin pasar por Java. Lo expuesto en el artículo de prescindir totalmente de la arquitectura solo consigue leer del userspace como una herramienta más; no puedes conseguir aplicar las ventajas de hdfs (acknowledgements, partición en bloques y factor de replicación) automáticamente sin “pasar por Java”, básicamente porque hdfs es una abstracción de una aplicación tipo sistema de archivos escrita en el susodicho lenguaje. Si no consigues hablarle a la API de los DataNodes en el lenguaje que entienden, no dejan de ser simples escrituras en disco. Y eso es lo que hace en el artículo: pretende generar la lógica del particionado de archivos, así como la replicación (en este caso a la hora de leer del sistema de archivos) del lado de la aplicación cliente (tu programa Python) y no la del servidor (que sería el DataNode/NameNode de turno). Snakebite va por la misma línea (una mini-reescritura de hdfs compatible con el original).

Curioso es, sin duda; pero para hacer “bulk reads y writes” desde Python la opción que mejor me ha funcionado hasta ahora es la biblioteca que mencionaba arriba (https://pypi.python.org/pypi/cyhdfs). Para escrituras ligeras está https://pypi.python.org/pypi/hdfs que tira de HttpFS y es sencillita. Por otro lado está Hadoopy, pero hace tiempo que nadie contribuye :S

También te digo Juanlu que si no hay tema para charla, o nadie puede, no pasa nada; bastante hay ya con la PyConES ;) Además el resto del público de la BDW es de todo menos técnico.

Saludos. 

> El 04/11/2015, a las 22:22, Juan Luis Cano <juanlu001 at gmail.com> escribió:
> 
> Hola a todos:
> 
> A falta de otra cosa, el otro día leí este artículo y me pareció una buena idea para una charla:
> 
> http://blaze.pydata.org/blog/2015/10/28/distributed-hdfs/
> 
> Básicamente utiliza una biblioteca de Python para inspeccionar HDFS, el sistema de ficheros distribuido de Hadoop, y luego distributed y pandas para hacer analíticas con esos datos sin cargarlos en memoria. Es un enfoque totalmente experimental, pero me resultó interesante para entender cómo funciona «esto del Big Data» y novedoso porque no utiliza ningún framework basado en Java :) Ni Spark, ni Hadoop MapReduce ni nada.
> 
> ¿Qué os parece? ¿Opiniones?
> 
> Podría proponerme yo para darla, aunque honestamente no sé de dónde voy a sacar el tiempo para prepararla...
> 
> Un saludo:
> 
> Juanlu
> 
>> On 2015-11-02 23:44, Juan Luis Cano wrote:
>> Hola a todos
>> 
>> Aparte de seguir abierta la llamada a propuestas, voy a necesitar ayuda para organizar la reunión este mes porque hoy he empezado trabajo nuevo y voy a tener una jornada laboral arrolladora... ¿Alguien me echa una mano?
>> 
>> Me ha llegado una propuesta de Mark Horvath, de una empresa llamada Casuality Group http://causality-group.com/who-we-are.html que hace quantitative trading con Python, pero habla poco español :(
>> 
>> Un saludo
>> 
>> Juanlu
>> 
>>> On 2015-10-29 20:06, Juan Luis Cano wrote:
>>> Hola a todos:
>>> 
>>> Como ya avancé en la reunión de la semana pasada, Carla Martínez, de Synergic Partners, nos invitó a Python Madrid a participar en el Mega Meetup del día 24 de noviembre que se celebrará en Campus Madrid.
>>> 
>>> http://madrid.bigdataweek.com/
>>> 
>>> De forma similar a cuando nos integramos en OpenExpo, en este Mega Meetup participaríamos varias comunidades tecnológicas, y la temática sería naturalmente Big Data. Aparte del mega meetup, que es martes, el lunes habrá ponencias muy interesantes para quien pueda asistir:
>>> 
>>> http://madrid.bigdataweek.com/schedule/
>>> 
>>> Nos piden desde Synergic que busquemos en el grupo a alguien que de una charla de 20 minutos (una solamente). Nos dan hasta el miércoles que viene, día 4. Si hay varias propuestas podemos estudiarlo internamente o hablarlo con ellos para no solapar temas :)
>>> 
>>> Por cuestión de controlar el aforo, han habilitado una web para adquirir entradas gratuitas pero obligatorias:
>>> 
>>> http://madrid.bigdataweek.com/free-tickets/
>>> 
>>> Yo ya he comprado la mía :)
>>> 
>>> Si alguien tiene alguna propuesta para la charla de ese día por favor que lo comente. Como veis, este mega meetup es dos días después de acabar la PyConES en Valencia, así que también será un buen momento para intercambiar impresiones y fardar un poco (por qué no) del eventazo que vamos a montar :)
>>> 
>>> Un saludo:
>>> 
>>> Juanlu
> 
> _______________________________________________
> Asociación Python España: http://www.es.python.org/
> Python Madrid: http://www.python-madrid.es/
> Madrid mailing list
> Madrid at lists.es.python.org
> https://lists.es.python.org/listinfo/madrid