[Cascavel-pm] converter para UTF-8

Silvio Almeida scvalmei em graaph.arq.br
Sexta Dezembro 21 09:34:45 PST 2007


Fui conferir uma opção no perlrun e acabei achando um truque novo, 
solução rápida para linha de comando:

$ cat arqtxt_105MB_iso88591.html | perl -C2 -ne 'print' - > 
arqtxt_105MB_utf8.html

Esta operação demora pouco mais de 5s no meu pc, é bem razoável.

O recode, que acabei de parar de usar, faz em 15s usando aditivos:

$ cat arqtxt_105MB_iso88591.html | recode --sequence=memory l1..u8 > 
arqtxt_105MB_utf8.html

O iconv consegue fazer em 2s:

$ cat arqtxt_105MB_iso88591.html | iconv -f latin1 -t utf-8 - > 
arqtxt_105MB_utf8.html

Claro que tem outras formas de fazer em Perl mas imagino que não há 
razão para o -C2 usar uma
implementação que não seja a mais eficiente.


-Silvio



fernandolouis em terra.com.br wrote:
> Boa tarde pessoal.
>
> Seguinte...fiz um .pl que gera todos sitemaps com todas as urls do meu site.
>
> Um arquivo com 50.000 urls fica com quase 10MB, então usei o gzip para 
> deixá-lo compactado (até porque economizo banda toda vez que o google puxar)
>
> Só que antes de compactar os arquivos xml, tenho que convertê-los para 
> UTF-8... há alguma maneira pra fazer isso em perl?
>
> []s
> Fernando 
>
> _______________________________________________
> Cascavel-pm mailing list
> Cascavel-pm em pm.org
> http://mail.pm.org/mailman/listinfo/cascavel-pm
>
>   

-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: http://mail.pm.org/pipermail/cascavel-pm/attachments/20071221/2780daf4/attachment.html 


Mais detalhes sobre a lista de discussão Cascavel-pm