Работает ли Dask DataFrame с большими Pandas DataFrames?

Вы можете использовать отрицание класса \w (-> \W) и исключить его:

^([^\W_]+)$
0
задан MRocklin 6 March 2019 в 15:03
поделиться

1 ответ

Возможно, ваш код не работает до того, как вы попадете в Dask. Если у вас очень большой массив данных Pandas, значит, у вас уже есть проблемы. Даск не может помочь тебе в этом деле.

df = pandas.DataFrame({'x': my_very_large_array})      # maybe you're failing here
ddf = dask.dataframe.from_pandas(df, npartitions=100)  # rather than here

Вместо этого люди чаще читают свои данные непосредственно в рамки данных Dask, а не маршрутизируют через Pandas. Они часто используют такие функции, как dask.dataframe.read_csv или dask.dataframe.read_parquet, чтобы загружать свои большие наборы данных непосредственно в Dask. Это помогает им избежать необходимости сначала загружать все свои данные в Pandas, что потребует, чтобы их набор данных поместился в памяти.

Дополнительную информацию о создании фреймов данных Dask можно найти здесь: https://docs.dask.org/en/latest/dataframe-create.html

Если вы столкнулись с ошибкой во второй строке, тогда я предполагаю, что вы используете примерно 50% используемой памяти, и разделение данных Dask приводит к копированию. В этом случае решение остается тем же: не загружайте свои данные в Pandas, а затем перемещайте их в Dask. Если ваши данные удобно помещаются в памяти, используйте Pandas. Если этого не произойдет, то вам, вероятно, следует найти способы загрузить его, кроме как перенести все это в память сразу.

0
ответ дан MRocklin 6 March 2019 в 15:03
поделиться
Другие вопросы по тегам:

Похожие вопросы: