[Madrid-pm] Nueva herramienta para procesar la ingente cantidad de textos de la web

Mie Dic 3 13:03:11 PST 2014

El 03/12/14 a las 09:12, Roberto Henriquez escribió:
> On 12/03/2014 06:25 AM, Alex Muntada wrote:
>> Para más inri está escrito en python, casi parece una broma...
>>
>> Lo de que sea más rápido en java parece ser por el modo de ejecución de
>> hadoop para lenguajes no java.
>>
>
> Eso es lo que yo entiendo, según el readme: «Even though Hadoop Streaming is a very useful tool, important degradations in the performance were detected using Hadoop Streaming with respect to Hadoop Java codes.»
>
> Parece que el problema viene de algún overhead de Hadoop Streaming.
>
> saludos!

Estoy sospechando que el tema puede estar en el tiempo que Perl "pierde" en el proceso de compilación de los programas, antes de ejecutarlos, cosa que los de Java no tienen (se compilan una vez).

O algo peor... que estén usando un Perl v5.8.8 en Red Hat 2008-2010... entonces sí que queda claro: el intérprete de Perl tenía un bug en la reserva de memoria, que lo hacía mucho más lento de lo normal.

Es que, otra razón, no se me ocurre. Y eso que he visto cantidad de ejemplos en los que la ejecución de Perl es más rápida y con muchos menos recursos que Java, haciendo la misma tarea.

JF