[Cascavel-pm] Mais um problema de codificação
Márcio Vitor
cromo.jml em gmail.com
Terça Novembro 27 05:09:39 PST 2007
Olá amigos, estou com um problema que estou a dias tentando resolver e
não consegui nada, o que me causou uma grande frustração.
Estou criando um webspider para uma loja virtual, usando o módulo
LWP::UserAgent, e estou tendo problemas com codificação, a codificação
da loja no seu header está como utf-8 ( www.cec.com.br ), após o
parse, estou inserindo estes dados num banco de dados oracle com
codificação iso-8859-1, quando iniciei o projeto, imaginei que apenas
um módulo resolveria o meu problema, tentei usar o Unicode::UTF8simple
que não resolveu o problema então parti para o Encode, e também não
obtive êxito, aliás algum êxito eu obtive, o mesmo identificou que a
codificação dos dados é mesmo utf8(is_utf8), este webspider está
rodando numa plataforma windows e inserindo numa base de dados oracle
(linux), então quando eu salvo um arquivo txt para debug no windows, e
visualizo o mesmo com um editor com codificação iso-8859 eu vejo que a
codificação está ok, porém quando insiro no oracle, não fica certo,
suspeito que o header esteja marcando a codificação utf-8 mas o texto
não está com esta codificação, porém se eu não faço qualquer
codificação também não insere corretamente.
PS: Sei da existência da falha conhecida para o LWP::UserAgent, e
tentei usar a opção parse_head => 0, experimentei também usar o método
decoded_content do módulo HTTP::Response.
<code>
$lwp_browser = LWP::UserAgent->new(
parse_head => 0
);
$resposta->decoded_content();
</code>
Alguém tem uma idéia do que possa estar acontecendo ? Ou pelo menos
pode me ajudar a recuperar o foco ? Já pesquisei bastante sobre.
Obrigado
Márcio Vitor
Mais detalhes sobre a lista de discussão Cascavel-pm