2
ответа

Как эффективно переместить файл данных / Dask размером 67 ГБ, не загружая его полностью в память?

У меня есть 3 довольно больших файла (67 ГБ, 36 ГБ, 30 ГБ), на которых мне нужно тренировать модели. Однако элементы представляют собой строки, а образцы - столбцы. Так как Dask не реализовал транспонирование и хранит DataFrames ...
вопрос задан: 16 January 2019 01:25
1
ответ

Как векторизовать процесс Dask Apply

Подобно пандам GroupBy to List, мы пытаемся запустить этот процесс в dask. Наше текущее решение реализует функцию dataframe.apply. Так как это бутылочное горлышко в нашем процессе - это ...
вопрос задан: 18 March 2019 18:23
1
ответ

Каков рекомендуемый рабочий процесс при работе в кластере Kubernetes с использованием Dask?

Я настроил кластер Kubernetes, используя Kubernetes Engine на GCP, чтобы работать над предварительной обработкой данных и моделированием с использованием Dask. Я установил Dask, используя Helm, следуя этим инструкциям. Прямо сейчас я ...
вопрос задан: 6 March 2019 21:57
1
ответ

Работает ли Dask DataFrame с большими Pandas DataFrames?

Я хотел бы использовать Dask для обработки больших фреймов данных. Однако я получаю ошибку памяти, когда я пытаюсь использовать его следующим образом. df = pandas.DataFrame ({'x': my_very_large_array}) ddf = dask.dataframe.from_pandas (...
вопрос задан: 6 March 2019 15:03
1
ответ

применить лямбда-функцию к кадру данных dask

Я ищу применение лямбда-функции к dask dataframe, чтобы изменить метки в столбце, если его значение меньше определенного процента. Метод, который я использую, хорошо работает для кадра данных панд, но ...
вопрос задан: 2 March 2019 06:29
1
ответ

Dask DataFrame после Apply не может переиндексировать с дублированной оси

Я пытаюсь изменить значения nan для item_price на среднее значение на основе item_id в следующем кадре данных dask: all_data ['item_price'] = all_data [['item_id', 'item_price']]. Groupby ('item_id') [ »...
вопрос задан: 1 March 2019 17:54
1
ответ

Dask dataframe - разбить столбец на несколько строк на основе разделителя

Как эффективно разделить столбец на несколько строк с помощью dask dataframe? Например, допустим, у меня есть файл csv, который я прочитал с использованием dask, чтобы создать следующий dask dataframe: id ...
вопрос задан: 21 January 2019 01:19
1
ответ

расчет евклидова расстояния с использованием Python и Dask

Я пытаюсь определить элементы в евклидовой матрице расстояний, которые подпадают под определенный порог. Затем я беру позиционные аргументы для этого поиска и использую их для сравнения элементов в ...
вопрос задан: 17 January 2019 17:06
1
ответ

Почему мой код занимает так много времени, чтобы написать файл CSV в Dask Python

Ниже приведен мой код Python: импортировать dask.dataframe как dd VALUE2015 = dd.read_csv ('A / SKD - M2M от продавца (значение по uom) (NEWSALES) 2015-2016.csv', usecols = VALUEFY, dtype = traintypes1) ОТЧЕТ знак равно
вопрос задан: 17 January 2019 05:10
1
ответ

Расчеты Dask требуют много времени для инициализации в ноутбуке Jupyter

Я пытаюсь использовать Dask для работы с набором данных, превышающим объем памяти, на моем ноутбуке через ноутбук Jupyter. Данные хранятся в виде множества CSV-файлов в корзине Amazon-s3. Эта первая клетка работает быстро ...
вопрос задан: 16 January 2019 18:09
1
ответ

Капли категории из Dask DataFrame? [Дубликат]

Можно ли отбросить некоторые категории при чтении секционированных данных в Dask DataFrame? Например, я разбил паркет в событиях / год = 2017 / месяц = ​​09 / день = 01 / час = 01 / customer = a.com / xxxx ....
вопрос задан: 7 August 2015 00:47
0
ответов

Как закрыть / удалить только одного работника Dask среди многих клиентов или планировщика

Похоже на проблему в этом посте, но только для одного работника. Я реализовал код в ответе, заданном mdurant, и передал один рабочий идентификатор, полученный от scheduler_id ['worker'], но что ...
вопрос задан: 28 March 2019 20:58
0
ответов

Dask Dataframe: определение меты для различий в датах

Я пытаюсь найти время между покупками (то есть, дни между заказами) для клиентов. Хотя мой код работает правильно без определения мета, я бы хотел, чтобы он работал правильно и больше не ...
вопрос задан: 26 March 2019 17:56
0
ответов

Почему категоризация Dask DataFrame, созданного из файла Parquet, резко увеличивает его размер?

Вот архетипический сценарий: я создаю Dask DataFrame из набора файлов Parquet, написанных FastParquet, и запускаю categoryorize () для DataFrame. Довольно много категорий становятся вновь «известными». Я ...
вопрос задан: 22 March 2019 17:18
0
ответов

Dask: преобразование DataFrame отношения «многие ко многим»

У меня есть DataFrame, как показано ниже. > print (df_user_preferences) user_id food_id int64 int64 int64 ... Этот информационный кадр представляет отношение «многие ко многим» между пользователем и продуктом питания. Там ...
вопрос задан: 22 March 2019 10:30
0
ответов

Как написать файл с Dask?

Я использую Dask: import dask.dataframe как dd dsk = dd.read_parquet ('/ tmp / parquet / f1.parquet') и мне просто нужно записать dsk в файл TXT (весь контент) Как этого добиться?
вопрос задан: 6 March 2019 15:47
0
ответов

Dask: отложенная и фьючерсная генерация и генерация графа задач [закрыто]

У меня есть несколько основных вопросов по Dask: правильно ли мне использовать Futures, когда я хочу использовать dask для распределенных вычислений (т.е. в кластере)? В этом случае, то есть при работе с фьючерсами, ...
вопрос задан: 17 January 2019 09:09
0
ответов

Перегрузка памяти

У меня есть следующий код, в котором мне подсчитывают значения категориальных переменных и количество значений NaN в столбце. Его работает на одном компьютере. Данные Kaggle Elo-Merchant ...
вопрос задан: 16 January 2019 11:18
0
ответов

распределен, не запускается рабочий

Есть случаи, когда кажется, что кластер dask зависает при перезапуске, чтобы симулировать это, я написал этот глупый код: import contextlib2 из распределенного импорта Client, LocalCluster for i in ...
вопрос задан: 1 January 2019 19:44
0
ответов

dask read_csv timeout на Amazon s3 с большими файлами

dask read_csv тайм-аут на s3 для больших файлов s3fs.S3FileSystem.read_timeout = 5184000 # один день s3fs.S3FileSystem.connect_timeout = 5184000 # один день клиент = клиент ('a_remote_scheduler_ip_here: 8786') ...
вопрос задан: 30 December 2018 02:27
0
ответов

Как вы распараллеливаете apply () на Dataframes Pandas, используя все ядра на одном компьютере?

По состоянию на август 2017 года, Pandas DataFame.apply (), к сожалению, все еще ограничен работой с одним ядром, что означает, что многоядерный компьютер будет тратить большую часть своего вычислительного времени при запуске df ....
вопрос задан: 7 August 2017 10:49