1
ответ

Как эффективно читать и писать паркетные файлы?

Я работаю над утилитой, которая одновременно считывает несколько файлов паркета и записывает их в один выходной файл. реализация очень проста. Эта утилита читает файлы паркета из ...
вопрос задан: 13 July 2018 15:24
1
ответ

Не удалось подключить VM к порту 22 в облаке Google

Я установил hadoop (HDP) в экземпляре Google Cloud vm, после того, как когда-нибудь, когда я попытался подключить машину снова, он показывает ошибку: «Мы не можем подключиться к VM на порту 22».
вопрос задан: 13 July 2018 14:48
1
ответ

HBase: создать несколько таблиц или одну таблицу со многими столбцами?

Когда имеет смысл создавать несколько таблиц, а не одну таблицу с большим количеством столбцов. Я понимаю, что обычно таблицы имеют только несколько семейств столбцов (1-2) и каждый из них ...
вопрос задан: 13 July 2018 13:49
1
ответ

Вставить в таблицу улья не работает

У меня есть прямая таблица hive, когда я вставляю в эту таблицу, я получаю следующую ошибку. Выполняется команда kill, а число маркеров и редукторов - 0. Обновление, которое я использовал ...
вопрос задан: 13 July 2018 09:55
1
ответ

Как остановить / убить задачи Airflow из пользовательского интерфейса

Как я могу остановить / убить запущенную задачу в Airflow UI? Я использую LocalExecutor. Даже если я использую CeleryExecutor, как я могу убить / остановить запущенную задачу?
вопрос задан: 28 July 2017 12:43
1
ответ

Hadoop Datanodes не могут найти NameNode

Я настроил распределенную среду Hadoop в VirtualBox: 4 виртуальных установки Ubuntu 11.10, одна действует как главный узел, остальные три как рабы. Я следовал этому руководству, чтобы получить ...
вопрос задан: 23 May 2017 12:18
1
ответ

Можно ли запустить Hadoop в псевдораспределенной работе без HDFS?

Я изучаю варианты запуска приложения Hadoop в локальной системе. Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все ...
вопрос задан: 23 May 2017 11:53
1
ответ

как изменить схему структуры внутри фрейма данных? [Дубликат]

У меня есть код, подобный этому df.select (col ("productionformation")). PrintSchema () output: | - productionformation: struct (nullable = true) | | - _1: string (nullable = true) | | - _2: string (...
вопрос задан: 24 March 2017 20:54
1
ответ

Как удалить CompactBuffer из искрового выхода после выполнения группы по ключу? [Дубликат]

Я новичок в искру. Вот данные, над которыми я работаю: 12-12-1990,12347,34 25-10-1991,11337,24 17-05-1990,12347,34 24-07-1990,12098,45 21-01- 1992,76947,47 30-05-1991,12986,12 14-08-1992,43347,43 ...
вопрос задан: 14 March 2017 13:21
1
ответ

Размер блока изменения файла DFS

Моя карта в настоящее время неэффективна при парсинге одного определенного набора файлов (в общей сложности 2 ТБ). Я хотел бы изменить размер блока файлов в DFS Hadoop (с 64 МБ до 128 МБ). Я не могу найти, как сделать...
вопрос задан: 5 October 2016 18:50
1
ответ

PySpark получает вложенный массив из sql Dataframe [duplicate]

У меня есть dataframe из sql, например: + ---- + ---------- + | ID | категория | + ---- + ---------- + | 1 | 1 | | 1 | 2 | | 2 | 4 | | 3 | 1 | | 3 | 4 | + ---- + ---------- + I ...
вопрос задан: 2 June 2016 00:17
1
ответ

ошибка при использовании метода collect_list в scala [duplicate]

У меня есть df: + ---- + ------ + -------- + ---- + | ID | veh_cd | veh_p_cd | код | + ---- + ------ + -------- + ---- + | 1002 | 23 | 89 | в | | 1003 | 34 | 78 | в | | 1004 | 78 | 78 | в | | 1004 | 7 | ...
вопрос задан: 20 February 2016 22:01
1
ответ

Как Hadoop выполняет входные разделения?

Это - концептуальный вопрос, включающий Hadoop/HDFS. Позволяет говорят, что у Вас есть файл, содержащий 1 миллиард строк. И ради простоты, позволяет, полагают, что каждая строка имеет форму <k, v> где...
вопрос задан: 7 January 2016 14:56
1
ответ

Hadoop скопирует каталог?

Существует ли API HDFS, который может скопировать весь локальный каталог в HDFS? Я нашел API для копирования файлов, но есть ли API для каталогов?
вопрос задан: 25 November 2015 14:28
1
ответ

Spark scala Разверните несколько вложенных столбцов xml в разные столбцы при получении данных из таблицы hive в формате паркета [duplicate]

Я пытаюсь использовать это на следующем df, но не знаю, как spark-shell -jars com.databricks_spark-xml_2.10-0.2.0.jar import org.json._ import com.databricks.spark.xml.XmlReader val parq = ...
вопрос задан: 19 October 2015 17:57
1
ответ

получение данных из hdfs и что-то не так, когда я хочу иметь дело с данными [duplicate]

Я кодирую идею и использую spark-submit для запуска. Я получаю данные из hdfs, а затем разбираюсь с ним. Но я не понимаю, почему это происходит? Есть еще один простой код, который не показан. Я уверен, что они ...
вопрос задан: 12 October 2015 18:21
1
ответ

Что такое безопасный режим в Hadoop? [Дубликат]

Я изучаю Hadoop, и я правильно установил кластер Hadoop узла (версия: 2.7.3) на моем Mac. Я уже загрузил несколько текстовых файлов в свой HDFS, и сегодня, когда я пытаюсь создать новый каталог ...
вопрос задан: 4 August 2015 15:37
1
ответ

Ошибка нехватки памяти в Hadoop

Я попытался установить Hadoop, следуя этому http: //hadoop.apache. org / common / docs / stable / single_node_setup.html документ. Когда я попытался выполнить этот bin / hadoop jar hadoop-examples - *. Jar grep input ...
вопрос задан: 14 January 2015 00:00
1
ответ

Mapper и Reducer являются универсальными в Hadoop [duplicate]

im изучая класс Mapper и Reducer в Hadoop. Я не могу понять, почему эти классы определяются как общие. Что это значит? Я всегда изучал общие для списков и массива ...
вопрос задан: 1 December 2014 02:35
1
ответ

Что такое пространство имен в HDFS [дубликат]

Помогите мне понять разницу между пространством имен и метаданными. Что такое содержимое, находящееся в пространстве имен и использование пространства имен
вопрос задан: 28 May 2014 23:25
1
ответ

Ошибка в MapReduce Hadoop

Когда я выполняю mapreduce использование программы Hadoop, я получаю следующую ошибку. 01.10.18 10:52:48 ИНФОРМАЦИИ mapred. JobClient: идентификатор Задачи: attempt_201001181020_0002_m_000014_0, Состояние: ОТКАЗАВШИЙ java.io. IOException:...
вопрос задан: 27 June 2013 22:14
1
ответ

Каков эффект hasoop job.setOutputKeyClass () в результате вывода? [Дубликат]

В общей программе mapreduce, такой как количество слов, мы имеем: public static class MyMapper extends Mapper (Object, Text, Text / * output key class * /, IntWritable / * output value class * /) {public void main (...). ..
вопрос задан: 9 January 2013 23:55
1
ответ

Сетевое узкое место пропускной способности для сортировки mapreduce промежуточных ключей?

Я изучал mapreduce алгоритм и как он может потенциально масштабироваться к миллионам машин, но я не понимаю, как сортировка промежуточных ключей после фазы карты может масштабироваться...
вопрос задан: 14 July 2012 02:49
1
ответ

Нет такого исключения метода Hadoop < init >

Когда я запускаю файл Hadoop .jar из командной строки, он выдает исключение, в котором говорится, что такой метод не является методом StockKey. StockKey - мой пользовательский класс, определенный для моего собственного типа ключа. Здесь ...
вопрос задан: 12 July 2012 07:31
1
ответ

SparkSQL (Thrift Server) TTransportException после 11 минут при запуске select * на 30-миллионной таблице строк [дубликат]

Env: hive 2.1.1, указывающий на таблицы на S3 Spark 2.3.0 (автономный режим) Hadoop 2.8.3 без hdfs Используя beeline для запроса sparksql (порт 10015, который был открыт службой бережливости), выберите * на таблицах с ...
вопрос задан: 31 May 2012 11:02
1
ответ

Как я могу проверить Hadoop SequenceFile, для которого мне не хватает полной информации о схеме?

У меня есть сжатый Hadoop SequenceFile от клиента, который я хотел бы проверить. В настоящее время у меня нет полной информации о схеме (над которой я работаю отдельно). Но между тем (и в ...
вопрос задан: 26 September 2011 19:50
1
ответ

как разработать схему Hbase?

предположите, что у меня есть эта таблица RDBM (Entity-attribute-value_model): col1: entityID col2: attributeName col3: значение и я хотим использовать HBase из-за масштабирования проблем. Я знаю что единственный способ получить доступ...
вопрос задан: 2 June 2011 10:19
1
ответ

Какова вычислительная сложность MapReduce наверху

Учитывая, что сложность карты и уменьшает задачи, O (карта) =f (n), и O (уменьшают) =g (n), имеет кого-либо занявшего время, чтобы записать как Отображение/Уменьшение внутренних операций (сортировка, перестановка, отправка...
вопрос задан: 26 September 2010 23:14
1
ответ

Получение начал с MapReduce / Hadoop [закрыто]

В последнее время, Я много читал о MapReduce / Hadoop и думаю, что это то место, куда сейчас движется индустрия. Я хочу начать изучать MapReduce / Hadoop, и я подумал, что лучший способ начать это ...
вопрос задан: 1 September 2010 00:06
1
ответ

Как преобразовать объект Path Hadoop в объект Java-файла

Есть ли способ изменить действительный и существующий объект Hadoop Path в полезный объект Java File. Есть хороший способ сделать это, или мне нужно, чтобы дубинкой кодировать в представлении? Тем более очевидно ...
вопрос задан: 9 August 2010 22:14