[Cascavel-pm] Mais um problema de codificação

Márcio Vitor cromo.jml em gmail.com
Terça Novembro 27 05:09:39 PST 2007


Olá amigos, estou com um problema que estou a dias tentando resolver e
não consegui nada, o que me causou uma grande frustração.

Estou criando um webspider para uma loja virtual, usando o módulo
LWP::UserAgent, e estou tendo problemas com codificação, a codificação
da loja no seu header está como utf-8 ( www.cec.com.br ), após o
parse, estou inserindo estes dados num banco de dados oracle com
codificação iso-8859-1, quando iniciei o projeto, imaginei que apenas
um módulo resolveria o meu problema, tentei usar o Unicode::UTF8simple
que não resolveu o problema então parti para o Encode, e também não
obtive êxito, aliás algum êxito eu obtive, o mesmo identificou que a
codificação dos dados é mesmo utf8(is_utf8), este webspider está
rodando numa plataforma windows e inserindo numa base de dados oracle
(linux), então quando eu salvo um arquivo txt para debug no windows, e
visualizo o mesmo com um editor com codificação iso-8859 eu vejo que a
codificação está ok, porém quando insiro no oracle, não fica certo,
suspeito que o header esteja marcando a codificação utf-8 mas o texto
não está com esta codificação, porém se eu não faço qualquer
codificação também não insere corretamente.
PS: Sei da existência da falha conhecida para o LWP::UserAgent, e
tentei usar a opção parse_head => 0, experimentei também usar o método
decoded_content do módulo HTTP::Response.
<code>
		$lwp_browser = LWP::UserAgent->new(
		parse_head => 0
		);

                $resposta->decoded_content();
</code>

Alguém tem uma idéia do que possa estar acontecendo ? Ou pelo menos
pode me ajudar a recuperar o foco ? Já pesquisei bastante sobre.

Obrigado
Márcio Vitor


Mais detalhes sobre a lista de discussão Cascavel-pm