[Moscow.pm] Идеальный Map-ер и Reduce-ер

Пн Янв 19 02:09:55 PST 2009

Здравствуйте, Анатолий.

Дык,  как  только начинаешь шардить данные, то приходишь к мэпредьюсу,
ибо иначе эти данные трудоёмко обрабатывать.

АШ> Я тоже пришел к тому, чтобы использовать мап редьюс. Видел этот
АШ> модуль, но не понял его :)

У не ясно как данные перекачивать большие. Вот скажем нужно обработать
миллиард  пар  ключ-значение.  И  маперы  на каждую пару выдают 10 пар
ключ-значение.  Как  всё  это  перекачать  редьюсерам  и  где  всё это
хранить, пока все маперы не закончат работу?

АШ> Было бы интересно услышать опыт использования. Только пока сам не
АШ> сделаешь, никто не расскажет :)

>> Вот  думаю  перейти с написания скриптов, обрабатывающих например всех
>> юзеров,   к   написанию   функций   для  MapReduce.  А  потому, хотел
>> поинтересоваться, как народ в компаниях вроде Яндекса, Рамблера, Супа,
>> Мыла и других реализует гугловский MapReduce?
>>
>> На  спане  нашёл
>> http://search.cpan.org/dist/Parallel-MapReduce/ , что
>> весьма любопытно.
>>
>> Как   например  решается  проблема  перекачки  и  накопления  большого
>> количества данных между фазами Map и Reduce и между одним MapReduce-ом
>> и другим MapReduce-ом?

--

С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.