[bcn-pm] Proceso de estadisticas avanzando

Jose Pedro Andres macklusadebianitas.net
Dme Maig 18 02:39:48 PDT 2005


Buenas:
    Comentarios entre lineas:

>Tampoco le veo el problema a ir leyendo directamente y procesando de una
>en una las (o de mil en mil) las líneas de entrada. Ten cuidado con el
>unlink (borrado) del archivo en el código que te ejemplifica fxn. 
>  
>
    El tema esta en que no se pueden borrar los archivos de logs ( 
porque tendria que reinciar el apache de cada balanceador web para que 
los creara de nuevo ), por lo que lo que me interesaba era usar el 
Tie::File para ir quitando las lineas que ya he procesado ( de esta 
forma, y en teoria, puedo ir recortando el archivo a medida que proceso 
las estadisticas, sin tocar el resto del archivo )
    Ahora mismo lo que hago es ir haciendo lineas hasta agotar el 
archivo, y truncarlo al final, pero me gustaria hacerlo "por la forma 
mas correcta", que es ir "quitando las lineas que proceso, y dejar el resto.

>Dependiendo del tipo de cálculo estadístico que quieras llevar a cabo
>necesitarás tener cargada en memoria más o menos líneas. En el perldoc
>de Tie::File veo que puede desactivarse el "cacheado" de
>lectura/escritura pero creo que es una complicación innecesaria para
>archivos grandes. 
>  
>
    El problema es que al usar el Tie::File la maquina se pone muy 
cargada, y tengo que pararlo, aun cuando lo unico que hago es sacar 100 
lineas a un array , y de ahi pasarselas al webalizer ( que ejecuto con 
open ( WEB, "|$webalizer " );
    Tambien he probado a quitar el cacheo, a decirle que use mas 
memoria, pero nada, es abrir un archivo grande, y la maquina empieza a 
subir muchisimo de carga.

>Hay un comando (split) de los text/core/utils que sirve para rebanar los
>archivos grandes.
>http://www.gnu.org/software/coreutils/manual/html_node/coreutils_20.html#SEC20
>  
>
    Ya lo pense, pero a la larga no hace mas que complicarlo todo.

>Con el demonio, ¿tienes pensado procesar los logs "en directo"?
>http://httpd.apache.org/docs/logs.html#piped
>  
>
    Tambien lo he probado, pero el rendimiento de los servidores web me 
baja un huevo ( hablamos de servir un poco menos de la mitad de paginas 
en el mismo tiempo ). Ademas, tampoco podria controlar la carga de la 
maquina, que es lo mas interesante ( de ahi la idea del demonio de 
proceso de logs ).

Espero haberme explicado bien, pq ultimamente tengo un lio mental de 
cuidado.

Saludos.

>Salut
>
>_______________________________________________
>llista dels Barcelona-pm
>Barcelona-pm en pm.org
>http://mail.pm.org/mailman/listinfo/barcelona-pm
>BCN Perl Mongers: http://barcelona.pm.org
>  
>



Més informació de la llista de correu Barcelona-pm