Эффективное параллельное применение функции к сгруппированному кадру данных pandas

Мне часто приходится применять функцию к группам очень большогоDataFrame(смешанных типов данных )и хотел бы использовать преимущества нескольких ядер.

Я могу создать итератор из групп и использовать модуль многопроцессорности, но это неэффективно, потому что каждая группа и результаты функции должны обрабатываться для обмена сообщениями между процессами.

Есть ли способ избежать травления или даже полностью избежать копирования DataFrame? Похоже, что функции разделяемой памяти многопроцессорных модулей ограничены numpyмассивами. Есть ли другие варианты?

88
задан MaxU 29 January 2017 в 22:32
поделиться