12
ответов

Загрузить CSV-файл как RDD в scala / spark? [Дубликат]

У меня есть большой файл csv объемом 6 ГБ с 1-й строкой в ​​качестве заголовков. Как я могу прочитать этот файл из HDFS и выполнить предварительную обработку данных (синтаксический анализ, фильтрация и т. Д.)?
вопрос задан: 5 May 2015 15:24
11
ответов

Почему не показывать правильное значение в столбце с pandas в python? [Дубликат]

Я опробовал некоторые аналитики данных с помощью pandas и получил проблему. Вход: import pandas as pd path = "/ PATH / TO / FILE /" rnames = ["user_id", "movie_id", "rating", "timestamp"] ratings = pd.read_csv (path + "...
вопрос задан: 23 March 2018 17:52
7
ответов

MySql Big Data With Multiple Select [дублировать]

У меня есть база данных MySQL с таблицей «foo». Foo имеет ~ 50.000.000 записей. Что я хочу сделать, это выбрать все записи с несколькими запросами. Например, я хотел бы получить первую запись 5000 ...
вопрос задан: 16 March 2015 04:43
3
ответа

Что лучший способ состоит в том, чтобы сохранить 16 × (2^20) матрица в MATLAB?

Я думаю о записи данных в файл. У кого-либо есть пример того, как записать большой объем данных в файл?Править: Большинство элементов в матрице, обнуляет, другие являются uint32. Я предполагаю...
вопрос задан: 23 May 2017 03:26
3
ответа

Запрос Elasticsearch для возврата всех записей

У меня есть небольшая база данных в Elasticsearch, и в целях тестирования я хотел бы получить все записи обратно. Я пытаюсь использовать URL-адрес в виде ... http: // localhost: 9200 / foo / _search? Pretty = true & q = ...
вопрос задан: 24 April 2016 00:46
1
ответ

Невозможно построить куб с помощью Apache Kylin

Я установил Apache Kylin в образ HDP Sandbox от Hortonworks. После этого я подключил Apache Kylin к нашему хранилищу данных Microsoft SQL, и когда я пытаюсь построить куб, процесс завершается ошибкой ....
вопрос задан: 25 June 2019 20:45
1
ответ

Существует ли какая-либо платформа с открытым исходным кодом для реализации системы хранения разделов / реплик?

Мне нужно реализовать распределенную систему хранения для движка реального времени. Некоторые из основных требований к системе хранения: 1) разделение данных на разные разделы 2) каждый раздел имеет ...
вопрос задан: 19 March 2019 15:24
1
ответ

Сертификация HortonWorks или Cloudera [закрыто]

Компании Hortonworks и Cloudera теперь объединены, поэтому какую сертификацию лучше пройти? Пожалуйста, поделитесь своими мыслями об этом.
вопрос задан: 11 March 2019 20:40
1
ответ

Транзакции на уровне строк в улье

Я новичок в HiveQL. Когда я создавал таблицу, я понял, что нам нужно сохранять ИСТИНА в некоторых свойствах транзакций. Затем я рассмотрел, что это такое: hive > set hive.support ....
вопрос задан: 4 March 2019 12:33
1
ответ

Невозможно выполнить любой запрос к таблице

Пока я выполняю следующий запрос SELECT * FROM table_unfilter WHERE date = '2010-08-01'; Я получаю Сбой: ошибка в получении блокировок: Ошибка связи с метастазами Когда я установил ...
вопрос задан: 26 February 2019 12:44
1
ответ

Не удается получить данные из Кафки в распределенную таблицу

Мне нужно получить данные из очереди Kafka (заполненные моим скриптом) для каждой реплики в кластере ClickHouse (CH). Я создал: таблицу 'queue' (движок Kafka) на каждой реплике; «потребительский» материализованный взгляд ...
вопрос задан: 23 February 2019 19:36
1
ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...
вопрос задан: 23 February 2019 18:32
1
ответ

Выделите службу mesos, используя более 1 ресурса узла

У меня есть кластер мезо DC / OS с 1 мастером, 2 частными агентами и 1 публичным агентом. Каждый частный агент предлагает 4 процессора и 14,7 ГБ памяти. Проблема в том, как я могу выделить службу, которая требует 8 процессоров ...
вопрос задан: 17 January 2019 14:26
1
ответ

numpy.memmap не может обрабатывать очень большие данные

Мне нужно держать в памяти очень большой вектор размером около 10 ** 8, и мне нужен быстрый произвольный доступ к нему. Я пытался использовать numpy.memmap, но обнаружил следующую ошибку: RuntimeWarning: overflow ...
вопрос задан: 16 January 2019 03:43
1
ответ

Каковы ограничения реализации MySQL NDB Cluster?

Я хочу реализовать Кластер NDB для MySQL Cluster 6. Я хочу сделать это для очень огромной структуры данных с минимальными 2 миллионами записей. Я хочу знать, то, если существуют какие-либо ограничения реализации NDB...
вопрос задан: 19 August 2017 11:45
1
ответ

как изменить схему структуры внутри фрейма данных? [Дубликат]

У меня есть код, подобный этому df.select (col ("productionformation")). PrintSchema () output: | - productionformation: struct (nullable = true) | | - _1: string (nullable = true) | | - _2: string (...
вопрос задан: 24 March 2017 20:54
1
ответ

Искры RDD на основе нескольких строк файла [duplicate]

У меня есть простой вопрос об искре. Представьте файл с этими данными: 00000000000 01000000000 02000000000 00000000000 01000000000 02000000000 03000000000 Я хочу создать rdd или sparkdataframe ...
вопрос задан: 9 March 2016 00:04
1
ответ

Вычисление и оставление свободного места в PostgreSQL

У меня есть таблица в pg как так: CREATE TABLE t (NOT NULL BIGSERIAL, - 8 b b SMALLINT, - 2 b c SMALLINT, - 2 b d РЕАЛЬНЫЙ...
вопрос задан: 10 March 2014 22:02
0
ответов

Автоматическое объединенное значение

Я хочу сгенерировать автоматическое объединенное значение в таблице базы данных, мне нужно такое значение: 1000 / 03-24-2019 / 11: 51 в SQL Server. Например: CREATE TABLE билеты (тикнум VARCHAR (50) ...
вопрос задан: 24 March 2019 16:54
0
ответов

Как получить имя файла при загрузке данных excel (xls) на spark 2.3?

Var test = spark.read.format (spark.read.format ("com.crealytics.spark.excel"). Option ("TreatEmptyValuesAsNulls", "true"). Option ("inferSchema", "true"). Option ( "addColorColumns", "False"). option ("useHeader" ...
вопрос задан: 6 March 2019 13:45
0
ответов

Ускорит ли Spark алгоритмы передачи данных?

У меня есть некоторый опыт (конечно, не эксперт) с общими параллельными вычислениями, и сейчас я думаю об изучении Spark. Я начал с некоторых самых простых примеров в pyspark, используя .parallelize, ....
вопрос задан: 5 March 2019 17:54
0
ответов

Классификация ML, как обращаться с ячейкой, которая имеет 2 информации?

Так что у меня есть ситуация, из которой я не могу выйти. Я довольно новичок в машинном обучении и его сообществе. Я пытаюсь сделать модель классификации, но вот моя проблема: так скажем, у меня есть 2 из X (...
вопрос задан: 1 March 2019 19:43
0
ответов

Рисование диаграмм с миллионами значений в браузере

Я должен загрузить миллионы значений (строки и числа с плавающей запятой) в браузере для рисования диаграмм. Проблема в том, что 500k достаточно для задержки загрузки страницы и когда данные отправляются на график ...
вопрос задан: 28 February 2019 22:54
0
ответов

Создайте индекс достоверности на основе истинных или ложных утверждений

Я хотел бы создать индекс, который измеряет достоверность того, что говорит человек. пример в нижнем истинном или ложном утверждении, которое выразил субъект. У вас есть кое-что о том, как я должен ...
вопрос задан: 17 February 2019 17:54
0
ответов

Создайте пять процентов образца базы данных из большой базы данных

Как создать пример базы данных из большой базы данных с различными таблицами и связями между таблицами? Моя большая база данных содержит около 20-25 таблиц со связанными ключами с некоторыми таблицами ...
вопрос задан: 18 January 2019 18:58
0
ответов

Как удалить / разделить файлы, в которых объединены несколько файлов avro (набор схем и записей)?

У меня есть файл, в котором есть несколько авросов Есть ли какой-нибудь пакет в java, который можно использовать для разделения и чтения файлов avro? Файл имеет следующий формат: схема1 запись1 схема2 запись2 схема3 ...
вопрос задан: 18 January 2019 15:24
0
ответов

Большая загрузка данных в Pandas Dataframe

Поскольку я новичок в Big Data Platform, я бы хотел поработать над особенностями своих данных. Размер базы данных составляет около 30-50 Гб. Есть ли возможность загрузить полные данные (30-50Gb) в данные ...
вопрос задан: 17 January 2019 09:33
0
ответов

Переустановка мастеров DCOS без разрушения кластера

У меня есть установленный кластер DCOS, содержит 3 мастера и 3 подчиненных, он работал нормально, пока один из мастеров не получил / var на 100% дискового пространства, перестал работать "вход в систему dcos auth", и я получил ошибку ...
вопрос задан: 17 January 2019 09:10
0
ответов

Создание плана запроса, сгенерированного компилятором

Здравствуйте, у меня есть следующая проблема для моей домашней работы. Любая помощь с этой проблемой приветствуется, потому что я понятия не имею. Рассмотрим следующий запрос (да, Substr делает то, что вы думаете), выберите ...
вопрос задан: 16 January 2019 20:11
0
ответов

Установка Ambari с остальными экосистемами hadoop

Я новичок в Hadoop и во всех смежных темах. у меня есть кластер из 3 узлов (1 ведущий и 2 ведомых), на которых запущен hadoop в Ubuntu. Мой вопрос, что я должен установить сначала, Ambari, затем hadoop, а остальные ...
вопрос задан: 16 January 2019 19:16