[bcn-pm] Proceso de estadisticas avanzando
Jose Pedro Andres
macklusadebianitas.net
Dme Maig 18 02:39:48 PDT 2005
Buenas:
Comentarios entre lineas:
>Tampoco le veo el problema a ir leyendo directamente y procesando de una
>en una las (o de mil en mil) las líneas de entrada. Ten cuidado con el
>unlink (borrado) del archivo en el código que te ejemplifica fxn.
>
>
El tema esta en que no se pueden borrar los archivos de logs (
porque tendria que reinciar el apache de cada balanceador web para que
los creara de nuevo ), por lo que lo que me interesaba era usar el
Tie::File para ir quitando las lineas que ya he procesado ( de esta
forma, y en teoria, puedo ir recortando el archivo a medida que proceso
las estadisticas, sin tocar el resto del archivo )
Ahora mismo lo que hago es ir haciendo lineas hasta agotar el
archivo, y truncarlo al final, pero me gustaria hacerlo "por la forma
mas correcta", que es ir "quitando las lineas que proceso, y dejar el resto.
>Dependiendo del tipo de cálculo estadístico que quieras llevar a cabo
>necesitarás tener cargada en memoria más o menos líneas. En el perldoc
>de Tie::File veo que puede desactivarse el "cacheado" de
>lectura/escritura pero creo que es una complicación innecesaria para
>archivos grandes.
>
>
El problema es que al usar el Tie::File la maquina se pone muy
cargada, y tengo que pararlo, aun cuando lo unico que hago es sacar 100
lineas a un array , y de ahi pasarselas al webalizer ( que ejecuto con
open ( WEB, "|$webalizer " );
Tambien he probado a quitar el cacheo, a decirle que use mas
memoria, pero nada, es abrir un archivo grande, y la maquina empieza a
subir muchisimo de carga.
>Hay un comando (split) de los text/core/utils que sirve para rebanar los
>archivos grandes.
>http://www.gnu.org/software/coreutils/manual/html_node/coreutils_20.html#SEC20
>
>
Ya lo pense, pero a la larga no hace mas que complicarlo todo.
>Con el demonio, ¿tienes pensado procesar los logs "en directo"?
>http://httpd.apache.org/docs/logs.html#piped
>
>
Tambien lo he probado, pero el rendimiento de los servidores web me
baja un huevo ( hablamos de servir un poco menos de la mitad de paginas
en el mismo tiempo ). Ademas, tampoco podria controlar la carga de la
maquina, que es lo mas interesante ( de ahi la idea del demonio de
proceso de logs ).
Espero haberme explicado bien, pq ultimamente tengo un lio mental de
cuidado.
Saludos.
>Salut
>
>_______________________________________________
>llista dels Barcelona-pm
>Barcelona-pm en pm.org
>http://mail.pm.org/mailman/listinfo/barcelona-pm
>BCN Perl Mongers: http://barcelona.pm.org
>
>
Més informació de la llista de correu Barcelona-pm