bigdata - список вопросов по программированию bigdata

12

ответов

Загрузить CSV-файл как RDD в scala / spark? [Дубликат]

У меня есть большой файл csv объемом 6 ГБ с 1-й строкой в качестве заголовков. Как я могу прочитать этот файл из HDFS и выполнить предварительную обработку данных (синтаксический анализ, фильтрация и т. Д.)?

вопрос задан: 5 May 2015 15:24

11

ответов

Почему не показывать правильное значение в столбце с pandas в python? [Дубликат]

Я опробовал некоторые аналитики данных с помощью pandas и получил проблему. Вход: import pandas as pd path = "/ PATH / TO / FILE /" rnames = ["user_id", "movie_id", "rating", "timestamp"] ratings = pd.read_csv (path + "...

python python-3.x pandas bigdata

вопрос задан: 23 March 2018 17:52

7

ответов

MySql Big Data With Multiple Select [дублировать]

У меня есть база данных MySQL с таблицей «foo». Foo имеет ~ 50.000.000 записей. Что я хочу сделать, это выбрать все записи с несколькими запросами. Например, я хотел бы получить первую запись 5000 ...

mysql bigdata

вопрос задан: 16 March 2015 04:43

3

ответа

Что лучший способ состоит в том, чтобы сохранить 16 × (2^20) матрица в MATLAB?

Я думаю о записи данных в файл. У кого-либо есть пример того, как записать большой объем данных в файл?Править: Большинство элементов в матрице, обнуляет, другие являются uint32. Я предполагаю...

matlab matrix file-io bigdata

вопрос задан: 23 May 2017 03:26

3

ответа

Запрос Elasticsearch для возврата всех записей

У меня есть небольшая база данных в Elasticsearch, и в целях тестирования я хотел бы получить все записи обратно. Я пытаюсь использовать URL-адрес в виде ... http: // localhost: 9200 / foo / _search? Pretty = true & q = ...

elasticsearch-dsl bigdata elasticsearch database query-string

вопрос задан: 24 April 2016 00:46

1

ответ

Невозможно построить куб с помощью Apache Kylin

Я установил Apache Kylin в образ HDP Sandbox от Hortonworks. После этого я подключил Apache Kylin к нашему хранилищу данных Microsoft SQL, и когда я пытаюсь построить куб, процесс завершается ошибкой ....

hadoop bigdata sqoop kylin

вопрос задан: 25 June 2019 20:45

1

ответ

Существует ли какая-либо платформа с открытым исходным кодом для реализации системы хранения разделов / реплик?

Мне нужно реализовать распределенную систему хранения для движка реального времени. Некоторые из основных требований к системе хранения: 1) разделение данных на разные разделы 2) каждый раздел имеет ...

bigdata storage

вопрос задан: 19 March 2019 15:24

1

ответ

Сертификация HortonWorks или Cloudera [закрыто]

Компании Hortonworks и Cloudera теперь объединены, поэтому какую сертификацию лучше пройти? Пожалуйста, поделитесь своими мыслями об этом.

hadoop bigdata cloudera hortonworks-data-platform

вопрос задан: 11 March 2019 20:40

1

ответ

Транзакции на уровне строк в улье

Я новичок в HiveQL. Когда я создавал таблицу, я понял, что нам нужно сохранять ИСТИНА в некоторых свойствах транзакций. Затем я рассмотрел, что это такое: hive > set hive.support ....

hadoop hive bigdata hiveql apache-zookeeper

вопрос задан: 4 March 2019 12:33

1

ответ

Невозможно выполнить любой запрос к таблице

Пока я выполняю следующий запрос SELECT * FROM table_unfilter WHERE date = '2010-08-01'; Я получаю Сбой: ошибка в получении блокировок: Ошибка связи с метастазами Когда я установил ...

sql hive bigdata metastore hive-metastore

вопрос задан: 26 February 2019 12:44

1

ответ

Не удается получить данные из Кафки в распределенную таблицу

Мне нужно получить данные из очереди Kafka (заполненные моим скриптом) для каждой реплики в кластере ClickHouse (CH). Я создал: таблицу 'queue' (движок Kafka) на каждой реплике; «потребительский» материализованный взгляд ...

java apache-kafka bigdata clickhouse

вопрос задан: 23 February 2019 19:36

1

ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...

apache-spark hive apache-spark-sql hdfs bigdata

вопрос задан: 23 February 2019 18:32

1

ответ

Выделите службу mesos, используя более 1 ресурса узла

У меня есть кластер мезо DC / OS с 1 мастером, 2 частными агентами и 1 публичным агентом. Каждый частный агент предлагает 4 процессора и 14,7 ГБ памяти. Проблема в том, как я могу выделить службу, которая требует 8 процессоров ...

bigdata mesos dcos jupyter-lab

вопрос задан: 17 January 2019 14:26

1

ответ

numpy.memmap не может обрабатывать очень большие данные

Мне нужно держать в памяти очень большой вектор размером около 10 ** 8, и мне нужен быстрый произвольный доступ к нему. Я пытался использовать numpy.memmap, но обнаружил следующую ошибку: RuntimeWarning: overflow ...

python python-3.x numpy out-of-memory bigdata

вопрос задан: 16 January 2019 03:43

1

ответ

Каковы ограничения реализации MySQL NDB Cluster?

Я хочу реализовать Кластер NDB для MySQL Cluster 6. Я хочу сделать это для очень огромной структуры данных с минимальными 2 миллионами записей. Я хочу знать, то, если существуют какие-либо ограничения реализации NDB...

mysql cluster-computing bigdata mysql6

вопрос задан: 19 August 2017 11:45

1

ответ

как изменить схему структуры внутри фрейма данных? [Дубликат]

У меня есть код, подобный этому df.select (col ("productionformation")). PrintSchema () output: | - productionformation: struct (nullable = true) | | - _1: string (nullable = true) | | - _2: string (...

python apache-spark hadoop pyspark bigdata

вопрос задан: 24 March 2017 20:54

1

ответ

Искры RDD на основе нескольких строк файла [duplicate]

У меня есть простой вопрос об искре. Представьте файл с этими данными: 00000000000 01000000000 02000000000 00000000000 01000000000 02000000000 03000000000 Я хочу создать rdd или sparkdataframe ...

scala apache-spark bigdata spark-dataframe rdd

вопрос задан: 9 March 2016 00:04

1

ответ

Вычисление и оставление свободного места в PostgreSQL

У меня есть таблица в pg как так: CREATE TABLE t (NOT NULL BIGSERIAL, - 8 b b SMALLINT, - 2 b c SMALLINT, - 2 b d РЕАЛЬНЫЙ...

postgresql database-design storage bigdata

вопрос задан: 10 March 2014 22:02

0

ответов

Автоматическое объединенное значение

Я хочу сгенерировать автоматическое объединенное значение в таблице базы данных, мне нужно такое значение: 1000 / 03-24-2019 / 11: 51 в SQL Server. Например: CREATE TABLE билеты (тикнум VARCHAR (50) ...

sql sql-server-2008 bigdata auto-increment

вопрос задан: 24 March 2019 16:54

0

ответов

Как получить имя файла при загрузке данных excel (xls) на spark 2.3?

Var test = spark.read.format (spark.read.format ("com.crealytics.spark.excel"). Option ("TreatEmptyValuesAsNulls", "true"). Option ("inferSchema", "true"). Option ( "addColorColumns", "False"). option ("useHeader" ...

bigdata

вопрос задан: 6 March 2019 13:45

0

ответов

Ускорит ли Spark алгоритмы передачи данных?

У меня есть некоторый опыт (конечно, не эксперт) с общими параллельными вычислениями, и сейчас я думаю об изучении Spark. Я начал с некоторых самых простых примеров в pyspark, используя .parallelize, ....

python apache-spark bigdata

вопрос задан: 5 March 2019 17:54

0

ответов

Классификация ML, как обращаться с ячейкой, которая имеет 2 информации?

Так что у меня есть ситуация, из которой я не могу выйти. Я довольно новичок в машинном обучении и его сообществе. Я пытаюсь сделать модель классификации, но вот моя проблема: так скажем, у меня есть 2 из X (...

machine-learning bigdata classification multilabel-classification multiclass-classification

вопрос задан: 1 March 2019 19:43

0

ответов

Рисование диаграмм с миллионами значений в браузере

Я должен загрузить миллионы значений (строки и числа с плавающей запятой) в браузере для рисования диаграмм. Проблема в том, что 500k достаточно для задержки загрузки страницы и когда данные отправляются на график ...

javascript html flask bigdata data-science

вопрос задан: 28 February 2019 22:54

0

ответов

Создайте индекс достоверности на основе истинных или ложных утверждений

Я хотел бы создать индекс, который измеряет достоверность того, что говорит человек. пример в нижнем истинном или ложном утверждении, которое выразил субъект. У вас есть кое-что о том, как я должен ...

algorithm indexing bigdata

вопрос задан: 17 February 2019 17:54

0

ответов

Создайте пять процентов образца базы данных из большой базы данных

Как создать пример базы данных из большой базы данных с различными таблицами и связями между таблицами? Моя большая база данных содержит около 20-25 таблиц со связанными ключами с некоторыми таблицами ...

database random bigdata sample

вопрос задан: 18 January 2019 18:58

0

ответов

Как удалить / разделить файлы, в которых объединены несколько файлов avro (набор схем и записей)?

У меня есть файл, в котором есть несколько авросов Есть ли какой-нибудь пакет в java, который можно использовать для разделения и чтения файлов avro? Файл имеет следующий формат: схема1 запись1 схема2 запись2 схема3 ...

java hadoop bigdata avro

вопрос задан: 18 January 2019 15:24

0

ответов

Большая загрузка данных в Pandas Dataframe

Поскольку я новичок в Big Data Platform, я бы хотел поработать над особенностями своих данных. Размер базы данных составляет около 30-50 Гб. Есть ли возможность загрузить полные данные (30-50Gb) в данные ...

bigdata jupyter-notebook oracle python-3.x

вопрос задан: 17 January 2019 09:33

0

ответов

Переустановка мастеров DCOS без разрушения кластера

У меня есть установленный кластер DCOS, содержит 3 мастера и 3 подчиненных, он работал нормально, пока один из мастеров не получил / var на 100% дискового пространства, перестал работать "вход в систему dcos auth", и я получил ошибку ...

dcos bigdata cluster-computing master mesosphere

вопрос задан: 17 January 2019 09:10

0

ответов

Создание плана запроса, сгенерированного компилятором

Здравствуйте, у меня есть следующая проблема для моей домашней работы. Любая помощь с этой проблемой приветствуется, потому что я понятия не имею. Рассмотрим следующий запрос (да, Substr делает то, что вы думаете), выберите ...

database bigdata

вопрос задан: 16 January 2019 20:11

0

ответов

Установка Ambari с остальными экосистемами hadoop

Я новичок в Hadoop и во всех смежных темах. у меня есть кластер из 3 узлов (1 ведущий и 2 ведомых), на которых запущен hadoop в Ubuntu. Мой вопрос, что я должен установить сначала, Ambari, затем hadoop, а остальные ...

ambari ubuntu hadoop bigdata

вопрос задан: 16 January 2019 19:16