[Moscow.pm] Идеальный Map-ер и Reduce-ер
Михаил Монашёв
postmaster на softsearch.ru
Пн Янв 19 02:09:55 PST 2009
Здравствуйте, Анатолий.
Дык, как только начинаешь шардить данные, то приходишь к мэпредьюсу,
ибо иначе эти данные трудоёмко обрабатывать.
АШ> Я тоже пришел к тому, чтобы использовать мап редьюс. Видел этот
АШ> модуль, но не понял его :)
У не ясно как данные перекачивать большие. Вот скажем нужно обработать
миллиард пар ключ-значение. И маперы на каждую пару выдают 10 пар
ключ-значение. Как всё это перекачать редьюсерам и где всё это
хранить, пока все маперы не закончат работу?
АШ> Было бы интересно услышать опыт использования. Только пока сам не
АШ> сделаешь, никто не расскажет :)
>> Вот думаю перейти с написания скриптов, обрабатывающих например всех
>> юзеров, к написанию функций для MapReduce. А потому, хотел
>> поинтересоваться, как народ в компаниях вроде Яндекса, Рамблера, Супа,
>> Мыла и других реализует гугловский MapReduce?
>>
>> На спане нашёл
>> http://search.cpan.org/dist/Parallel-MapReduce/ , что
>> весьма любопытно.
>>
>> Как например решается проблема перекачки и накопления большого
>> количества данных между фазами Map и Reduce и между одним MapReduce-ом
>> и другим MapReduce-ом?
--
С уважением,
Михаил Монашёв, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.
Подробная информация о списке рассылки Moscow-pm