[Moscow.pm] Идеальный Map-ер и Reduce-ер

Монашёв Михаил postmaster на softsearch.ru
Вт Янв 20 08:37:19 PST 2009


Здравствуйте, Михаил.

Вдогонку... А редьюсеры запускать на тех хостах, где скопилось больше всего
данных от маперов, в надежде, что придётся гонять меньше данных по
сети.

> Выходит,  что  мастер-процесс, раскидывающий задачи по маперам, должен
> знать  какой  тип  данных  им  передаётся  и  где  данные  этого  типа
> хранятся...

> Приходим  к  тому,  что  было  неплохо иметь возможность самому писать
> алгоритм раскидования задач маперам. Или же скрыть его от программиста
> и на каждом мапере игнорировать чтение данных, расположенных на других
> хостах, если на тех хостах запущены маперы.

>> Кудряво написано. 
>> Но, если мы знаем где лежат данные, то запустить там же мапперы
>> не сложно, а ежли нет - то "ой". 
>> Соответсвенно, тот же hadoop хранит файлы кусками на кластере и
>> его "запускалка мапов" знает где и что лежит.

>> 20.01.09, 18:11, "Монашёв Михаил" <postmaster на softsearch.ru>:

>>> Здравствуйте, Михаил.
>>> Хотел  спросить,  как  бы  Вы решали задачу выбора хостов для запусков
>>> маперов, чтобы они работали с теми данными, которые хранятся на том же
>>> хосте?




-- 
С уважением,
Монашёв Михаил, SoftSearch.ru
mailto:postmaster на softsearch.ru
ICQ# 166233339
http://michael.mindmix.ru/
Без бэкапа по жизни.



Подробная информация о списке рассылки Moscow-pm