<p>Daniel, eu sou deslexo!!</p>
<p>E sim, nao deve ter chego no open ate agora! Isso eu entendi!</p>
<p>So nao sei q diabos o perl tava(ou ta! Nao conferi agpra, depois de 4 hrs se ta rolando) fazendo depois do log final!</p>
<p>Alguem tem mais experiência com grandes volumes? </p>
<p>Eu estou super aberto a dicas, podem xingar!(afinal neh Marcio, alguem aki faz isso bem, mas errado )<br><br></p>
<p>Tava olhando umas theads, falando sobre o ... como chama... mongodb. Sera q eh melhor usalo? Pois nao ah necessidade de relaciomento real entre as tabelas. Se nao existe agora, podera existir daqui algum tempo....<br>

Alias, quem mexeu no banco de prod trocou as gks por indrxes... soh pra &quot;tentar &quot; drixar mais rapido os milhoes de insert. Troquei pra copy agora sobe td em segundos....</p>
<p>Vou dormi, abraco pro seis!</p>
<p>Em set 28, 2010 11:36 PM, &quot;Renato Santos&quot; &lt;<a href="mailto:renato.cron@gmail.com">renato.cron@gmail.com</a>&gt;escreveu:<br><br><p>Entao... começando pelo procedimento do teórico do dedup</p>
<p>Ah cadastros salvos no db, por exemplo nome/email/fone.<br><br></p>
<p>100 terceiros te enviam estes dados do seu clientes, ex: financeiro da eletropaulo, marketing da eletropaulo.</p>
<p>Depois de certos tratamentos (externos, feito em outra hora) eh salvo isso em outra tabela.</p>
<p>A regra eh: bateu nome/qualquer coisa(tel/mail) eh a msma pessoa.</p>
<p>no $this, $self, ou seja la o nome da.maldita var! Eh populado assim:</p>
<p>$this-&gt;{$nm}[(email)]{$email} = id unico desta pessoa/ email</p>
<p>Esse email entre parenteses eh uma const numerica, pra separar o email,fone,etc..</p>
<p>Depois feito um loop nos novos registros e eh comparado com este Hash.</p>
<p>Foi feito com hash na memoria, pq, em teoria, eh mais rapido ja ter tudo na ram do que fazer um select por linha lida. </p>
<p>Pensando&quot;ah, eh soum selext....&quot;<br>
Sao 4 tabelas, telefones, emails,enderecos,e a cadastro. 1 pessoa pode ter 55 emails (msmo q hj soh carregue 1 por entrada) <br>
Multiplicando 8milhoes de selects vao gerar mais custo q um com outro where.</p>
<p>Vou ver as respostas novas deste e mail, depois posto de novo</p>
<p><blockquote type="cite"><p><font color="#500050">
&gt;
&gt; Em set 28, 2010 7:59 PM, &quot;Marcio Ferreira&quot; &lt;<a href="mailto:marciodesouzaferreira@gmail.com">marciodesouzaferreira@gmail.com</a>&gt;escreveu:
&gt;
</font></p><div class="gmail_quote"><p><font color="#500050">&gt; &gt; Resumindo o e-mail inteiro! &gt; Porque o perl 2 que foi executado pelo perl 1 ainda esta rodando m...</font></p><p><font color="#500050">
&gt;
&gt; Se a aplicação ainda está em desenvolvimento, tente usar o PostgreSQL 9, o algoritmo de VACCUM ...</font></p><p><font color="#500050">
&gt;
&gt;   &gt; &gt;   &gt; &gt; &gt; &gt; Segue então o e-mail &gt; &gt; Tinha um processo aqui (deduplicação de registros do b...</font></p></div><p><font color="#500050">
&gt;
&gt;
&gt;
&gt; _______________________________________________
&gt; SaoPaulo-pm mailing list
&gt; SaoPaulo-pm@pm...</font></p></blockquote></p>
</p>