[SP-pm] (no subject)

Daniel de Oliveira Mantovani daniel.oliveira.mantovani at gmail.com
Fri May 16 07:15:17 PDT 2014


Bom dia, ontem a noite eu li a notícia mais interessante dos últimos
meses. Uma notícia que mostra a evolução de um dos países emergentes
com uma das maiores populações do mundo. Eu li o case, que vocês vão
usar como exemplo. O primeiro caso de Big Data relacionado à Dados
Eleitorais na Índia.

O contrário do resto do mundo, eles não tem dados demográficos e
perfis socioeconômicos. No projeto eles tiveram que fazer tudo do
zero, foram processados milhões de PDF's.

Para vocês terem ideia de como esse projeto foi desafiador, a Índia é
um país tão desorganizado que não existe nenhum documento equivalente
ao CPF ou o SSN. Se você fizer um empréstimo na Índia, o gerente do
banco vai visitar à sua casa e apenas emprestam pequenas quantidades
de dinheiro. Um banco da Índia pode ter a mesma pessoa repetida na
base de dados como um cliente diferente centenas de vezes. Quando o
Milind Chitgupakar me mostrou os padrões dos documentos que eles
precisavam processar e bater com outras centenas de bases diferentes,
em diferentes formatos, eu achei que seria quase impossível cruzar
toda essa informação, num período tão curto de tempo.

Basicamente esse projeto usou Perl, Java, PostgreSQL e Hadoop. Foram
8TB de dados processados num cluster de Hadoop com 64 nodes e também
no PostgreSQL(basicamente procedures escritas em Perl).

Esse é um tremendo case para toda comunidade Open Source, e eu estou
muito contente com os resultados.

http://epaper.metroindia.com/story.aspx?id=4593&boxid=98266432&ed_date=2014-5-15&ed_code=820009&ed_page=2#.U3SduZLSCm4.twitter

http://epaperbeta.timesofindia.com/Article.aspx?eid=31809&articlexml=Hyd-startup-cobbles-up-Indias-first-poll-data-15052014014040

http://www.thehindubusinessline.com/news/politics/india-elections-big-data-throws-up-interesting-trivia/article6011219.ece

http://dataconomy.com/big-data-complexity-and-indias-election/

http://www.informationweek.in/informationweek/news-analysis/295826/hyderabad-analytics-startup-builds-india-largest-electoral-repository-814-crore-voters

http://www.moneylife.in/business-wire-news/hyderabads-analytics-start-up-modak-analytics-builds-indias-largest-ever-big-data-repository-of-electoral-data/39233.html

http://www.cxotoday.com/story/hyderabads-analytics-start-up-builds-big-data-repository-of-electoral-data/

https://www.youtube.com/watch?v=9JuqPvuCp30


-dom

--

Daniel de Oliveira Mantovani
Business Analytic Specialist
Perl Evangelist /Astrophysics hobbyist.
+55 11 9 8538-9897
XOXO


More information about the SaoPaulo-pm mailing list