<p>Entao... começando pelo procedimento do teórico do dedup</p>
<p>Ah cadastros salvos no db, por exemplo nome/email/fone.<br><br></p>
<p>100 terceiros te enviam estes dados do seu clientes, ex: financeiro da eletropaulo, marketing da eletropaulo.</p>
<p>Depois de certos tratamentos (externos, feito em outra hora) eh salvo isso em outra tabela.</p>
<p>A regra eh: bateu nome/qualquer coisa(tel/mail) eh a msma pessoa.</p>
<p>no $this, $self, ou seja la o nome da.maldita var! Eh populado assim:</p>
<p>$this-&gt;{$nm}[(email)]{$email} = id unico desta pessoa/ email</p>
<p>Esse email entre parenteses eh uma const numerica, pra separar o email,fone,etc..</p>
<p>Depois feito um loop nos novos registros e eh comparado com este Hash.</p>
<p>Foi feito com hash na memoria, pq, em teoria, eh mais rapido ja ter tudo na ram do que fazer um select por linha lida. </p>
<p>Pensando&quot;ah, eh soum selext....&quot;<br>
Sao 4 tabelas, telefones, emails,enderecos,e a cadastro. 1 pessoa pode ter 55 emails (msmo q hj soh carregue 1 por entrada) <br>
Multiplicando 8milhoes de selects vao gerar mais custo q um com outro where.</p>
<p>Vou ver as respostas novas deste e mail, depois posto de novo</p>
<p><blockquote type="cite">Em set 28, 2010 7:59 PM, &quot;Marcio Ferreira&quot; &lt;<a href="mailto:marciodesouzaferreira@gmail.com" target="_blank">marciodesouzaferreira@gmail.com</a>&gt;escreveu:<br><br><div class="gmail_quote">
<p><font color="#500050">&gt; Resumindo o e-mail inteiro!
&gt; Porque o perl 2 que foi executado pelo perl 1 ainda esta rodando mes...</font></p><p><font color="#500050">
&gt;
&gt; Já ouviu falar em Orientação Objeto ? </font></p><p><font color="#500050">
 
&gt;
&gt;
&gt; Os selects estão bons, o problema mesmo é na hora de subir (depois da &quot;letra&quot; F) que eu dro...</font></p><p><font color="#500050">
&gt;
&gt; Se a aplicação ainda está em desenvolvimento, tente usar o PostgreSQL 9, o algoritmo de VACCUM ...</font></p><p><font color="#500050">
 
&gt;
&gt;  
&gt;
&gt;
&gt;
&gt; Segue então o e-mail
&gt;
&gt; Tinha um processo aqui (deduplicação de registros do banco...</font></p><p><font color="#500050">
&gt;
&gt; Roda no notebook do Pira que tem mais memória e um processador de verdade</font></p><p><font color="#500050">
 
&gt;
&gt; O processo fazia mais ou menos assim:
&gt;
&gt; Carrega do banco todos as pessoas com a letra A
&gt; S...</font></p><p><font color="#500050">
&gt;
&gt; Isso pode ti ajudar <a href="http://sao-paulo.pm.org/equinocio/2010/set/10">http://sao-paulo.pm.org/equinocio/2010/set/10</a></font></p><p><font color="#500050">
 
&gt;
&gt;
&gt; O código pra chamar o filho ta assim:
&gt;
&gt;         $rotinas-&gt;log(&quot;Chamando perl para process...</font></p></div><p><font color="#500050">
&gt;
&gt;
&gt;
&gt; _______________________________________________
&gt; SaoPaulo-pm mailing list
&gt; SaoPaulo-pm@pm...</font></p></blockquote></p>