[Moscow.pm] Идеальный Map-ер и Reduce-ер

Ruslan Zakirov ruslan.zakirov на gmail.com
Пн Янв 19 04:17:18 PST 2009


Посмотрел Hadoop и у них есть Combiner для этого:

"Users can optionally specify a combiner, via
JobConf.setCombinerClass(Class), to perform local aggregation of the
intermediate outputs, which helps to cut down the amount of data
transferred from the Mapper to the Reducer."

Прежде чем прочитал, то подумал об этом. Фактически Reducer, который
будет выполнен на той же ноде сразу после мапера. В Parallel-MapReduce
такого нет и придется его совмещать с мапером. Типа если считаем
количество вхождений слов в текст, то делаем не:

sub map { return map { $_ => 1} grep length, split /\s+/ };

а что-то типа:

sub map { my %res; $res{$_}++ for grep length, split /\s+/; return %res };

Пошел читать дальше.

2009/1/19 Михаил Монашёв <postmaster на softsearch.ru>:
> Здравствуйте.
>
> Вот  думаю  перейти с написания скриптов, обрабатывающих например всех
> юзеров,   к   написанию   функций   для  MapReduce.  А  потому,  хотел
> поинтересоваться, как народ в компаниях вроде Яндекса, Рамблера, Супа,
> Мыла и других реализует гугловский MapReduce?
>
> На  спане  нашёл http://search.cpan.org/dist/Parallel-MapReduce/ , что
> весьма любопытно.
>
> Как   например  решается  проблема  перекачки  и  накопления  большого
> количества данных между фазами Map и Reduce и между одним MapReduce-ом
> и другим MapReduce-ом?
>
> --
>
> С уважением,
> Михаил Монашёв, SoftSearch.ru
> mailto:postmaster на softsearch.ru
> ICQ# 166233339
> http://michael.mindmix.ru/
> Без бэкапа по жизни.
>
> --
> Moscow.pm mailing list
> moscow-pm на pm.org | http://moscow.pm.org
>



-- 
Best regards, Ruslan.


Подробная информация о списке рассылки Moscow-pm