Какие проблемы mapreduce могут решить?

Попробуйте это:

df = pd.DataFrame({'col1':[['apple','ball','cat'],['cat','donkey'],['elephant','apple','rhino']]}, index=[0,1,2])

my_list = ['ball', 'apple']

pd.Series([[r for r in i if r in my_list] for i in df['col1']])

Вывод:

0    [apple, ball]
1               []
2          [apple]
dtype: object
32
задан Welbog 1 April 2009 в 12:44
поделиться

5 ответов

Для обработки требования задач и генерации больших наборов данных. Скажите выполнение запроса поколения интереса по всем учетным записям, которые содержит банк. Скажите данные аудита обработки для всех транзакций, которые произошли в прошлом году в банке. Лучший вариант использования от Google - генерирующий поисковый индекс для поисковой системы Google.

5
ответ дан 27 November 2019 в 21:12
поделиться

Много проблем, которые "Смущающе Параллельны" (большая фраза!) может использовать MapReduce. http://en.wikipedia.org/wiki/Embarrassingly_parallel

От этой статьи.... http://www.businessweek.com/magazine/content/07_52/b4064048925836.htm...

Doug Cutting, заявляет основатель Hadoop (реализация с открытым исходным кодом MapReduce)... “Facebook использует Hadoop для анализа пользовательского поведения и эффективности рекламы на сайте"

и... “техническая команда в Нью-Йорк таймс передала вычислительную мощность на облаке Amazon и использовала Hadoop для преобразования 11 миллионов заархивированных статей, относясь ко времени 1851, к цифровым и доступным для поиска документам. Они изменили к лучшему в единственный день задание, которое иначе займет месяцы”.

5
ответ дан 27 November 2019 в 21:12
поделиться

Что-либо, что включает выполнение операций на большом наборе данных, где проблема может быть разломана на меньшие независимые подпроблемы, кто результаты, может затем быть агрегировано для создания решения большей проблемы.

Тривиальный пример вычислил бы сумму огромного набора чисел. Вы разделяете набор на меньшие наборы, вычисляете суммы тех меньших наборов параллельно (который может включить разделение тех, которые во все же еще меньшие наборы), затем суммируйте те результаты для достижения окончательного ответа.

3
ответ дан 27 November 2019 в 21:12
поделиться

В Map-Reduce для машинного обучения на многоядерных процессорах Чу и др. описывают «алгоритмы, которые соответствуют модели статистического запроса, могут быть записаны в определенном виде» форма суммирования, «которая позволяет легко распараллеливать их на многоядерных компьютерах». В частности, они реализуют 10 алгоритмов, включая, например, взвешенную линейную регрессию, k-среднее, наивный байесовский алгоритм и SVM, с использованием структуры сокращения карты.

Проект Apache Mahout выпустил недавнюю реализацию Hadoop (Java) некоторых методов, основанных на идеях этой статьи.

9
ответ дан 27 November 2019 в 21:12
поделиться

Вы также можете посмотреть видео в Google , я смотрю их сам и считаю их очень познавательными.

2
ответ дан 27 November 2019 в 21:12
поделиться
Другие вопросы по тегам:

Похожие вопросы: