[Cascavel-pm] converter para UTF-8
Silvio Almeida
scvalmei em graaph.arq.br
Sexta Dezembro 21 09:34:45 PST 2007
Fui conferir uma opção no perlrun e acabei achando um truque novo,
solução rápida para linha de comando:
$ cat arqtxt_105MB_iso88591.html | perl -C2 -ne 'print' - >
arqtxt_105MB_utf8.html
Esta operação demora pouco mais de 5s no meu pc, é bem razoável.
O recode, que acabei de parar de usar, faz em 15s usando aditivos:
$ cat arqtxt_105MB_iso88591.html | recode --sequence=memory l1..u8 >
arqtxt_105MB_utf8.html
O iconv consegue fazer em 2s:
$ cat arqtxt_105MB_iso88591.html | iconv -f latin1 -t utf-8 - >
arqtxt_105MB_utf8.html
Claro que tem outras formas de fazer em Perl mas imagino que não há
razão para o -C2 usar uma
implementação que não seja a mais eficiente.
-Silvio
fernandolouis em terra.com.br wrote:
> Boa tarde pessoal.
>
> Seguinte...fiz um .pl que gera todos sitemaps com todas as urls do meu site.
>
> Um arquivo com 50.000 urls fica com quase 10MB, então usei o gzip para
> deixá-lo compactado (até porque economizo banda toda vez que o google puxar)
>
> Só que antes de compactar os arquivos xml, tenho que convertê-los para
> UTF-8... há alguma maneira pra fazer isso em perl?
>
> []s
> Fernando
>
> _______________________________________________
> Cascavel-pm mailing list
> Cascavel-pm em pm.org
> http://mail.pm.org/mailman/listinfo/cascavel-pm
>
>
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: http://mail.pm.org/pipermail/cascavel-pm/attachments/20071221/2780daf4/attachment.html
Mais detalhes sobre a lista de discussão Cascavel-pm