Попробуйте это:
df = pd.DataFrame({'col1':[['apple','ball','cat'],['cat','donkey'],['elephant','apple','rhino']]}, index=[0,1,2])
my_list = ['ball', 'apple']
pd.Series([[r for r in i if r in my_list] for i in df['col1']])
Вывод:
0 [apple, ball]
1 []
2 [apple]
dtype: object
Для обработки требования задач и генерации больших наборов данных. Скажите выполнение запроса поколения интереса по всем учетным записям, которые содержит банк. Скажите данные аудита обработки для всех транзакций, которые произошли в прошлом году в банке. Лучший вариант использования от Google - генерирующий поисковый индекс для поисковой системы Google.
Много проблем, которые "Смущающе Параллельны" (большая фраза!) может использовать MapReduce. http://en.wikipedia.org/wiki/Embarrassingly_parallel
От этой статьи.... http://www.businessweek.com/magazine/content/07_52/b4064048925836.htm...
Doug Cutting, заявляет основатель Hadoop (реализация с открытым исходным кодом MapReduce)... “Facebook использует Hadoop для анализа пользовательского поведения и эффективности рекламы на сайте"
и... “техническая команда в Нью-Йорк таймс передала вычислительную мощность на облаке Amazon и использовала Hadoop для преобразования 11 миллионов заархивированных статей, относясь ко времени 1851, к цифровым и доступным для поиска документам. Они изменили к лучшему в единственный день задание, которое иначе займет месяцы”.
Что-либо, что включает выполнение операций на большом наборе данных, где проблема может быть разломана на меньшие независимые подпроблемы, кто результаты, может затем быть агрегировано для создания решения большей проблемы.
Тривиальный пример вычислил бы сумму огромного набора чисел. Вы разделяете набор на меньшие наборы, вычисляете суммы тех меньших наборов параллельно (который может включить разделение тех, которые во все же еще меньшие наборы), затем суммируйте те результаты для достижения окончательного ответа.
В Map-Reduce для машинного обучения на многоядерных процессорах Чу и др. описывают «алгоритмы, которые соответствуют модели статистического запроса, могут быть записаны в определенном виде» форма суммирования, «которая позволяет легко распараллеливать их на многоядерных компьютерах». В частности, они реализуют 10 алгоритмов, включая, например, взвешенную линейную регрессию, k-среднее, наивный байесовский алгоритм и SVM, с использованием структуры сокращения карты.
Проект Apache Mahout выпустил недавнюю реализацию Hadoop (Java) некоторых методов, основанных на идеях этой статьи.
Вы также можете посмотреть видео в Google , я смотрю их сам и считаю их очень познавательными.