У меня есть 3 довольно больших файла (67 ГБ, 36 ГБ, 30 ГБ), на которых мне нужно тренировать модели. Однако элементы представляют собой строки, а образцы - столбцы. Так как Dask не реализовал транспонирование и хранит DataFrames ...
Подобно пандам GroupBy to List, мы пытаемся запустить этот процесс в dask. Наше текущее решение реализует функцию dataframe.apply. Так как это бутылочное горлышко в нашем процессе - это ...
Я настроил кластер Kubernetes, используя Kubernetes Engine на GCP, чтобы работать над предварительной обработкой данных и моделированием с использованием Dask. Я установил Dask, используя Helm, следуя этим инструкциям. Прямо сейчас я ...
Я хотел бы использовать Dask для обработки больших фреймов данных. Однако я получаю ошибку памяти, когда я пытаюсь использовать его следующим образом. df = pandas.DataFrame ({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas (...
Я ищу применение лямбда-функции к dask dataframe, чтобы изменить метки в столбце, если его значение меньше определенного процента. Метод, который я использую, хорошо работает для кадра данных панд, но ...
Я пытаюсь изменить значения nan для item_price на среднее значение на основе item_id в следующем кадре данных dask: all_data ['item_price'] = all_data [['item_id', 'item_price']]. Groupby ('item_id') [ »...
Как эффективно разделить столбец на несколько строк с помощью dask dataframe? Например, допустим, у меня есть файл csv, который я прочитал с использованием dask, чтобы создать следующий dask dataframe: id ...
Я пытаюсь определить элементы в евклидовой матрице расстояний, которые подпадают под определенный порог. Затем я беру позиционные аргументы для этого поиска и использую их для сравнения элементов в ...
Ниже приведен мой код Python: импортировать dask.dataframe как dd VALUE2015 = dd.read_csv ('A / SKD - M2M от продавца (значение по uom) (NEWSALES) 2015-2016.csv', usecols = VALUEFY, dtype = traintypes1) ОТЧЕТ знак равно
Я пытаюсь использовать Dask для работы с набором данных, превышающим объем памяти, на моем ноутбуке через ноутбук Jupyter. Данные хранятся в виде множества CSV-файлов в корзине Amazon-s3. Эта первая клетка работает быстро ...
Можно ли отбросить некоторые категории при чтении секционированных данных в Dask DataFrame? Например, я разбил паркет в событиях / год = 2017 / месяц = 09 / день = 01 / час = 01 / customer = a.com / xxxx ....
Похоже на проблему в этом посте, но только для одного работника. Я реализовал код в ответе, заданном mdurant, и передал один рабочий идентификатор, полученный от scheduler_id ['worker'], но что ...
Я пытаюсь найти время между покупками (то есть, дни между заказами) для клиентов. Хотя мой код работает правильно без определения мета, я бы хотел, чтобы он работал правильно и больше не ...
Вот архетипический сценарий: я создаю Dask DataFrame из набора файлов Parquet, написанных FastParquet, и запускаю categoryorize () для DataFrame. Довольно много категорий становятся вновь «известными». Я ...
У меня есть DataFrame, как показано ниже. > print (df_user_preferences) user_id food_id int64 int64 int64 ... Этот информационный кадр представляет отношение «многие ко многим» между пользователем и продуктом питания. Там ...
Я использую Dask: import dask.dataframe как dd dsk = dd.read_parquet ('/ tmp / parquet / f1.parquet') и мне просто нужно записать dsk в файл TXT (весь контент) Как этого добиться?
У меня есть несколько основных вопросов по Dask: правильно ли мне использовать Futures, когда я хочу использовать dask для распределенных вычислений (т.е. в кластере)? В этом случае, то есть при работе с фьючерсами, ...
У меня есть следующий код, в котором мне подсчитывают значения категориальных переменных и количество значений NaN в столбце. Его работает на одном компьютере. Данные Kaggle Elo-Merchant ...
Есть случаи, когда кажется, что кластер dask зависает при перезапуске, чтобы симулировать это, я написал этот глупый код: import contextlib2 из распределенного импорта Client, LocalCluster for i in ...
dask read_csv тайм-аут на s3 для больших файлов s3fs.S3FileSystem.read_timeout = 5184000 # один день s3fs.S3FileSystem.connect_timeout = 5184000 # один день клиент = клиент ('a_remote_scheduler_ip_here: 8786') ...
По состоянию на август 2017 года, Pandas DataFame.apply (), к сожалению, все еще ограничен работой с одним ядром, что означает, что многоядерный компьютер будет тратить большую часть своего вычислительного времени при запуске df ....