Возможно, ваш код не работает до того, как вы попадете в Dask. Если у вас очень большой массив данных Pandas, значит, у вас уже есть проблемы. Даск не может помочь тебе в этом деле.
df = pandas.DataFrame({'x': my_very_large_array}) # maybe you're failing here
ddf = dask.dataframe.from_pandas(df, npartitions=100) # rather than here
Вместо этого люди чаще читают свои данные непосредственно в рамки данных Dask, а не маршрутизируют через Pandas. Они часто используют такие функции, как dask.dataframe.read_csv
или dask.dataframe.read_parquet
, чтобы загружать свои большие наборы данных непосредственно в Dask. Это помогает им избежать необходимости сначала загружать все свои данные в Pandas, что потребует, чтобы их набор данных поместился в памяти.
Дополнительную информацию о создании фреймов данных Dask можно найти здесь: https://docs.dask.org/en/latest/dataframe-create.html
Если вы столкнулись с ошибкой во второй строке, тогда я предполагаю, что вы используете примерно 50% используемой памяти, и разделение данных Dask приводит к копированию. В этом случае решение остается тем же: не загружайте свои данные в Pandas, а затем перемещайте их в Dask. Если ваши данные удобно помещаются в памяти, используйте Pandas. Если этого не произойдет, то вам, вероятно, следует найти способы загрузить его, кроме как перенести все это в память сразу.
EngineCarts является одним из таких вариантов, но стоит денег.
Вы, вероятно, можете довольно легко портировать через существующее приложение на python django, такое как Satchmo .
Сатчмо, звучит здорово, электронная коммерция на Google App Engine.
Я не думаю, что Satchmo может быть развернутым в приложении Google. Англ. "легко" из-за множества зависимых библиотек.
Если вы посмотрите, Google App Engine сообщил о проблемах или запросах функции . Его там.
Freeblisket работает с Google App Engine и находится на Java.