[SP-pm] Map Reduce

Douglas Campos douglas at theros.info
Wed Jan 12 06:22:12 PST 2011


> Não entendi. Qual preconceito?
Era brincadeira :P

>> TL;DR
Tentei explicar o que era o hadoop pra mim, de forma sucinta; não sei
se a galera de perl tem background de java (ou se sequer querem ter
isso)

> Ok, pode me chamar de velho, old-school, o que for. Mas na minha época,
> file-system era algo que tinha alguma coisa a ver com o kernel do sistema
> operacional. Mesmo com o uso cada vez menos incomum de "user space" file
> systems hoje, sempre há um gancho no kernel. Por exemplo, sou um feliz
> usuário de sshfs [1], mas ele precisa que o fuse [2] faça o gancho dentro do
> kernel do Linux.

uso o fuse também, mas já sofri bastante com infra restritiva (que não
deixava você colocar nada no kernel), logo essas coisas "application
level" fazem algum sentido pra desembaraçar o processo de deploy

> Dei uma lida rápida no começo da documentação do HDFS. Ok, entendi (em
> linahs gerais) o que o cara quis fazer. Eu mudaria o nome de "filesystem"
> para algo como "JVM-based filesystem" ou algo assim, para evitar
> ambiguidades. But hey, that's just me.

A idéia não é performance, é escalabilidade, então sem problemas

> Pessoalmente eu não sei se usaria algo em Java (+ pesado) para lidar com
> algo que pode ter requerimentos de performance como I/O de dados. Algo em

Cuidado com a falácia de que java é pesado, o foco da vm é otimização
adaptiva, e no caso de long-running processes pode até ganhar de muita
aplicação com otimização agressiva (já bati código C compilado com -O4
usando java).

> Java dificilmente irá se aproveitar de coisas como tamanho do bloco no disco
> físico para melhorar o desempenho. Em escala menor, isso não importa, mas se
> falarmos de massas de dados gigantes, esse tipo de detalhe pode fazer
> diferença. O HDFS será tão bom com os arquivos quanto for a implementação de
> Java utilizada para rodá-lo. Espero *muito* que estejam usando java.nio.* -

Estão, se não estivessem realmente só uma surra pra resolver ¬¬

> não faria sentido se não usassem. Eu pensaria em algo feito em C/C++ para
> implementar esse "file system", e que provesse essa funcionalidade
> "genérica" em todas as plataformas onde fosse compilado, mas que pudesse se
> proveitar de coisas como o FUSE no Linux para ser acessado diretamente como
> um "real file system" (mesmo que em user-space), sem que isso tenha um custo
> de performance tão alto.

Resumindo: a merda é tentar vender como fs, mesmo sendo um fs devia
ser vendido como datastore

> yet another $0.02
Aprecio suas opiniões e as respeito. 0.02 é pouco

alexei++


More information about the SaoPaulo-pm mailing list