[Madrid-pm] Nueva herramienta para procesar la ingente cantidad de textos de la web

Joaquin Ferrero explorer en joaquinferrero.com
Mar Dic 2 14:57:03 PST 2014


Hola.

«/Investigadores del centro CiTIUS de la Universidad de Santiago de Compostela han creado un software libre que acelera el procesamiento de textos y documentos publicados en la web. Su nombre es Perldoop, y permite el análisis de los datos de una forma más sencilla y eficiente.//»/ Artículo <http://vlcnoticias.com/nueva-herramienta-para-procesar-la-ingente-cantidad-de-textos-de-la-web/>

Esta gente <http://proxectos.citius.usc.es/hpcpln/index.php/en/software-tools> ha desarrollado un programa <https://github.com/citiususc/perldoop> que traduce programas escritos en Perl a Java, aumentando en doce veces <http://proxectos.citius.usc.es/hpcpln/images/documents/abuin14Perldoop.pdf> la velocidad de procesamiento de textos.

El tema está en que es la herramienta Hadoop la que permite ejecutar programas escritos en otros lenguajes, y se dieron cuenta de que al hacerlo en Perl, aunque tenía una gran facilidad para trabajar con exp. reg., iba mucho más lento que haciéndolo en Java (?) así que se han currado esa herramienta.

Lo que me llama la atención es lo de que Java sea doce veces más rápido... algo no me cuadra.

JF


Más información sobre la lista de distribución Madrid-pm