Вы можете использовать отрицание класса \w
(-> \W
) и исключить его:
^([^\W_]+)$
Возможно, ваш код не работает до того, как вы попадете в Dask. Если у вас очень большой массив данных Pandas, значит, у вас уже есть проблемы. Даск не может помочь тебе в этом деле.
df = pandas.DataFrame({'x': my_very_large_array}) # maybe you're failing here
ddf = dask.dataframe.from_pandas(df, npartitions=100) # rather than here
Вместо этого люди чаще читают свои данные непосредственно в рамки данных Dask, а не маршрутизируют через Pandas. Они часто используют такие функции, как dask.dataframe.read_csv
или dask.dataframe.read_parquet
, чтобы загружать свои большие наборы данных непосредственно в Dask. Это помогает им избежать необходимости сначала загружать все свои данные в Pandas, что потребует, чтобы их набор данных поместился в памяти.
Дополнительную информацию о создании фреймов данных Dask можно найти здесь: https://docs.dask.org/en/latest/dataframe-create.html
Если вы столкнулись с ошибкой во второй строке, тогда я предполагаю, что вы используете примерно 50% используемой памяти, и разделение данных Dask приводит к копированию. В этом случае решение остается тем же: не загружайте свои данные в Pandas, а затем перемещайте их в Dask. Если ваши данные удобно помещаются в памяти, используйте Pandas. Если этого не произойдет, то вам, вероятно, следует найти способы загрузить его, кроме как перенести все это в память сразу.