7
ответов

Не удалось конвертировать из Parquet в csv [duplicate]

Мы сталкиваемся с проблемой, когда мы конвертируем файл паркета apache в csv в наших средах Linux. Мы получаем ошибку как: java.io.IOException: No FileSystem для схемы: файл После прочтения ...
вопрос задан: 30 September 2014 16:18
2
ответа

Сбой задания AWS GLUE при работе с разделенными файлами Parquet во вложенных папках s3

Я получаю следующую ошибку при выполнении задания GLUE над разделенными файлами паркета. Невозможно определить схему для паркета. Он должен быть указан вручную. Я настроил свой сканер и успешно ...
вопрос задан: 18 January 2019 09:35
2
ответа

Одновременно оптимизируйте обработку Spark [duplicate]

Я занимаюсь обработкой Spark на нескольких файлах. Обработка проста: чтение csv, выбор / фильтрация, а затем наложение на паркет. Я заметил, что: чтение всех файлов в одном фрейме данных ...
вопрос задан: 11 August 2015 16:52
1
ответ

Как я могу загрузить файл паркета построчно

Чтобы сэкономить место на моем ноутбуке, я сохранил довольно большой набор данных в виде паркетных файлов через dask. И было интересно, есть ли способ читать в файлах паркета построчно. Спасибо за помощь.
вопрос задан: 28 March 2019 01:21
1
ответ

Можем ли мы использовать CBO Spark (Оптимизатор затрат) с собственным паркетом или в фрейме данных в памяти?

Скажем, я хочу объединить 3 таблицы A, B, C с внутренним объединением, а C очень маленьким. #DUMMY ПРИМЕР с таблицей IN-MEMORY, но та же проблема, если загрузить таблицу с помощью spark.read.parquet ("") var A = (от 1 до 1000000) .toSeq ....
вопрос задан: 18 March 2019 16:39
1
ответ

Какой самый быстрый способ конвертировать Parquet в обычный TEXT файл?

Я хотел быстро преобразовать паркетный формат в TXT. Пробовал с паркетными инструментами cat parque_file > parque_file.txt, но для файла размером 5 КБ требуется более 2 секунд. Я верю, что есть ...
вопрос задан: 5 March 2019 12:36
1
ответ

Spark Structured Streaming writestream не записывает файл, пока я не остановлю работу

Я использую Spark Structured Streaming для классического варианта использования: я хочу прочитать тему kafka и записать поток в HDFS в формате паркета. Вот мой код: импорт org.apache.spark.sql ....
вопрос задан: 28 February 2019 21:27
1
ответ

Переименовать ключ во вложенной схеме Spark DataFrame (Scala)

У меня есть сценарий использования, который должен прочитать вложенную схему JSON и записать ее обратно как паркет (моя схема меняется в зависимости от дня, когда я читаю данные, поэтому я заранее не знаю точную схему), поскольку в ...
вопрос задан: 18 January 2019 21:28
1
ответ

Vertica не экспортирует в паркет все данные без оговорки об ограничении

Я вижу странное поведение при попытке выполнить EXPORT TO PARQUET из Vertica на локальный диск. См. Пример: когда я делаю EXPORT TO PARQUET (directory = '/ data') поверх (раздел по дате установки) AS ...
вопрос задан: 17 January 2019 15:31
1
ответ

Как Паркет обрабатывает столбцы SparseVector?

Я очень новичок в PySpark. Я собирал tfidf и хочу сохранить его на диске в качестве промежуточного результата. Теперь оценка IDF дает мне представление SparseVector. Однако при попытке сохранить его как ...
вопрос задан: 17 January 2019 03:10
1
ответ

Какой формат отметки времени для записи файла паркета в го

Я пытаюсь написать структуру Go в файле Parquet и загрузить ее на S3. Какой формат и тип указать в параметре timestamp в структуре, чтобы athena отображала правильную метку времени при чтении из ...
вопрос задан: 16 January 2019 19:02
1
ответ

Как эффективно читать и писать паркетные файлы?

Я работаю над утилитой, которая одновременно считывает несколько файлов паркета и записывает их в один выходной файл. реализация очень проста. Эта утилита читает файлы паркета из ...
вопрос задан: 13 July 2018 15:24
1
ответ

Почему первое чтение в hdfs с искрою всегда длиннее? [Дубликат]

Я пытался измерить разницу между временами чтения между csv и паркет с искровым. Я знаю, что паркет работает быстрее, но мне нужно иметь несколько показателей для отчета. Я заметил, что когда я прочитал ...
вопрос задан: 25 January 2018 12:41
1
ответ

Spark scala Разверните несколько вложенных столбцов xml в разные столбцы при получении данных из таблицы hive в формате паркета [duplicate]

Я пытаюсь использовать это на следующем df, но не знаю, как spark-shell -jars com.databricks_spark-xml_2.10-0.2.0.jar import org.json._ import com.databricks.spark.xml.XmlReader val parq = ...
вопрос задан: 19 October 2015 17:57
0
ответов

Искра DataFrame, за исключением исключения функции

Я пытаюсь реализовать функцию удаления для паркета при использовании, кроме функции я получаю исключение org.apache.spark.sql.AnalysisException: Resolved attribute (s) {all attribute of dataframe} ...
вопрос задан: 28 March 2019 14:53
0
ответов

PySpark не записывает статистику для столбцов TimeStamp и Decimal в формате Parquet

Я пытаюсь сгенерировать файлы Parquet с помощью Pyspark. Я обнаружил, что в метаданных сгенерированных файлов Parquet статистика столбцов TimestampType и DecimalType не задается
вопрос задан: 28 March 2019 06:02
0
ответов

Почему категоризация Dask DataFrame, созданного из файла Parquet, резко увеличивает его размер?

Вот архетипический сценарий: я создаю Dask DataFrame из набора файлов Parquet, написанных FastParquet, и запускаю categoryorize () для DataFrame. Довольно много категорий становятся вновь «известными». Я ...
вопрос задан: 22 March 2019 17:18
0
ответов

Pyarrow записывает вложенный массив в паркет

Я хочу написать файл партера, который имеет несколько обычных столбцов с данными 1d-массива и несколько столбцов, которые имеют вложенную структуру, то есть 2d-массивы. Я пробовал следующее: импорт pyarrow как импорт импорт ...
вопрос задан: 5 March 2019 10:50
0
ответов

Redshift добавляет 4/5 часов к столбцам меток времени при копировании с помощью команды & ldquo; COPY & rdquo; из S3

Я пытаюсь скопировать данные (Parquet File) из S3 в Redshift, используя команду COPY команды redshift. Данные успешно скопированы, но я вижу дополнительные 5 часов, добавленные в поле метки времени. Когда я попробую ...
вопрос задан: 18 January 2019 12:40
0
ответов

Записать нулевое значение в файл Parquet

Я использую библиотеку Parquet CPP для записи данных из базы данных MySQL в файл паркета. У меня есть два вопроса: 1) Что означает РЕПЕТЦИЯ в схеме? Связано ли это с ограничениями таблицы при определении ...
вопрос задан: 13 July 2018 21:46
0
ответов

Почему Apache Spark считывает ненужные столбцы Parquet во вложенных структурах?

Моя команда создает процесс ETL для загрузки необработанных текстовых файлов с разделителями в «озеро данных» на основе Parquet с использованием Spark. Одним из обещаний хранилища столбцов Parquet является то, что запрос будет читать только ...
вопрос задан: 23 May 2017 12:02
0
ответов

Добавлять новые данные в разделенные файлы паркета

Я пишу ETL-процесс, в котором мне нужно будет почитать почасовые журналы, разделить данные и сохранить их. Я использую Spark (в Databricks). Файлы журналов CSV, поэтому я читаю их и применяю схему, затем ...
вопрос задан: 17 April 2017 20:44
0
ответов

Чтение секционированного файла паркета в Spark приводит к полям в неправильном порядке

Для таблицы с созданием таблицы mytable (..), разделенной на (my_part_column String) Мы выполняем hive sql следующим образом: из pyspark.sql import HiveContext hc = HiveContext (sc) ...
вопрос задан: 26 February 2015 05:18