<div dir="ltr">Obrigado também!</div><div class="gmail_extra"><br><br><div class="gmail_quote">2014-05-16 11:29 GMT-03:00 Carlos Costa <span dir="ltr"><<a href="mailto:crncosta@gmail.com" target="_blank">crncosta@gmail.com</a>></span>:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Caramba, não sabia que a India era assim. Obrigado por compartilhar!!! vou ler no fim de semana.<div><br>

</div><div>( )s</div><div>Carlos.</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">

2014-05-16 11:15 GMT-03:00 Daniel de Oliveira Mantovani <span dir="ltr"><<a href="mailto:daniel.oliveira.mantovani@gmail.com" target="_blank">daniel.oliveira.mantovani@gmail.com</a>></span>:<div><div class="h5"><br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Bom dia, ontem a noite eu li a notícia mais interessante dos últimos<br>
meses. Uma notícia que mostra a evolução de um dos países emergentes<br>
com uma das maiores populações do mundo. Eu li o case, que vocês vão<br>
usar como exemplo. O primeiro caso de Big Data relacionado à Dados<br>
Eleitorais na Índia.<br>
<br>
O contrário do resto do mundo, eles não tem dados demográficos e<br>
perfis socioeconômicos. No projeto eles tiveram que fazer tudo do<br>
zero, foram processados milhões de PDF's.<br>
<br>
Para vocês terem ideia de como esse projeto foi desafiador, a Índia é<br>
um país tão desorganizado que não existe nenhum documento equivalente<br>
ao CPF ou o SSN. Se você fizer um empréstimo na Índia, o gerente do<br>
banco vai visitar à sua casa e apenas emprestam pequenas quantidades<br>
de dinheiro. Um banco da Índia pode ter a mesma pessoa repetida na<br>
base de dados como um cliente diferente centenas de vezes. Quando o<br>
Milind Chitgupakar me mostrou os padrões dos documentos que eles<br>
precisavam processar e bater com outras centenas de bases diferentes,<br>
em diferentes formatos, eu achei que seria quase impossível cruzar<br>
toda essa informação, num período tão curto de tempo.<br>
<br>
Basicamente esse projeto usou Perl, Java, PostgreSQL e Hadoop. Foram<br>
8TB de dados processados num cluster de Hadoop com 64 nodes e também<br>
no PostgreSQL(basicamente procedures escritas em Perl).<br>
<br>
Esse é um tremendo case para toda comunidade Open Source, e eu estou<br>
muito contente com os resultados.<br>
<br>
<a href="http://epaper.metroindia.com/story.aspx?id=4593&boxid=98266432&ed_date=2014-5-15&ed_code=820009&ed_page=2#.U3SduZLSCm4.twitter" target="_blank">http://epaper.metroindia.com/story.aspx?id=4593&boxid=98266432&ed_date=2014-5-15&ed_code=820009&ed_page=2#.U3SduZLSCm4.twitter</a><br>




<br>
<a href="http://epaperbeta.timesofindia.com/Article.aspx?eid=31809&articlexml=Hyd-startup-cobbles-up-Indias-first-poll-data-15052014014040" target="_blank">http://epaperbeta.timesofindia.com/Article.aspx?eid=31809&articlexml=Hyd-startup-cobbles-up-Indias-first-poll-data-15052014014040</a><br>




<br>
<a href="http://www.thehindubusinessline.com/news/politics/india-elections-big-data-throws-up-interesting-trivia/article6011219.ece" target="_blank">http://www.thehindubusinessline.com/news/politics/india-elections-big-data-throws-up-interesting-trivia/article6011219.ece</a><br>




<br>
<a href="http://dataconomy.com/big-data-complexity-and-indias-election/" target="_blank">http://dataconomy.com/big-data-complexity-and-indias-election/</a><br>
<br>
<a href="http://www.informationweek.in/informationweek/news-analysis/295826/hyderabad-analytics-startup-builds-india-largest-electoral-repository-814-crore-voters" target="_blank">http://www.informationweek.in/informationweek/news-analysis/295826/hyderabad-analytics-startup-builds-india-largest-electoral-repository-814-crore-voters</a><br>




<br>
<a href="http://www.moneylife.in/business-wire-news/hyderabads-analytics-start-up-modak-analytics-builds-indias-largest-ever-big-data-repository-of-electoral-data/39233.html" target="_blank">http://www.moneylife.in/business-wire-news/hyderabads-analytics-start-up-modak-analytics-builds-indias-largest-ever-big-data-repository-of-electoral-data/39233.html</a><br>




<br>
<a href="http://www.cxotoday.com/story/hyderabads-analytics-start-up-builds-big-data-repository-of-electoral-data/" target="_blank">http://www.cxotoday.com/story/hyderabads-analytics-start-up-builds-big-data-repository-of-electoral-data/</a><br>




<br>
<a href="https://www.youtube.com/watch?v=9JuqPvuCp30" target="_blank">https://www.youtube.com/watch?v=9JuqPvuCp30</a><br>
<br>
<br>
-dom<br>
<br>
--<br>
<br>
Daniel de Oliveira Mantovani<br>
Business Analytic Specialist<br>
Perl Evangelist /Astrophysics hobbyist.<br>
<a href="tel:%2B55%2011%209%208538-9897" value="+5511985389897" target="_blank">+55 11 9 8538-9897</a><br>
XOXO<br>
=begin disclaimer<br>
   Sao Paulo Perl Mongers: <a href="http://sao-paulo.pm.org/" target="_blank">http://sao-paulo.pm.org/</a><br>
 SaoPaulo-pm mailing list: <a href="mailto:SaoPaulo-pm@pm.org" target="_blank">SaoPaulo-pm@pm.org</a><br>
 L<<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a>><br>
=end disclaimer<br>
</blockquote></div></div></div><br></div>
<br>=begin disclaimer<br>
   Sao Paulo Perl Mongers: <a href="http://sao-paulo.pm.org/" target="_blank">http://sao-paulo.pm.org/</a><br>
 SaoPaulo-pm mailing list: <a href="mailto:SaoPaulo-pm@pm.org">SaoPaulo-pm@pm.org</a><br>
 L<<a href="http://mail.pm.org/mailman/listinfo/saopaulo-pm" target="_blank">http://mail.pm.org/mailman/listinfo/saopaulo-pm</a>><br>
=end disclaimer<br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Gabriel Vieira
</div>