Я работаю над утилитой, которая одновременно считывает несколько файлов паркета и записывает их в один выходной файл. реализация очень проста. Эта утилита читает файлы паркета из ...
Я установил hadoop (HDP) в экземпляре Google Cloud vm, после того, как когда-нибудь, когда я попытался подключить машину снова, он показывает ошибку: «Мы не можем подключиться к VM на порту 22».
Когда имеет смысл создавать несколько таблиц, а не одну таблицу с большим количеством столбцов. Я понимаю, что обычно таблицы имеют только несколько семейств столбцов (1-2) и каждый из них ...
У меня есть прямая таблица hive, когда я вставляю в эту таблицу, я получаю следующую ошибку. Выполняется команда kill, а число маркеров и редукторов - 0. Обновление, которое я использовал ...
Как я могу остановить / убить запущенную задачу в Airflow UI? Я использую LocalExecutor. Даже если я использую CeleryExecutor, как я могу убить / остановить запущенную задачу?
Я настроил распределенную среду Hadoop в VirtualBox: 4 виртуальных установки Ubuntu 11.10, одна действует как главный узел, остальные три как рабы. Я следовал этому руководству, чтобы получить ...
Я изучаю варианты запуска приложения Hadoop в локальной системе. Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все ...
Я новичок в искру. Вот данные, над которыми я работаю: 12-12-1990,12347,34 25-10-1991,11337,24 17-05-1990,12347,34 24-07-1990,12098,45 21-01- 1992,76947,47 30-05-1991,12986,12 14-08-1992,43347,43 ...
Моя карта в настоящее время неэффективна при парсинге одного определенного набора файлов (в общей сложности 2 ТБ). Я хотел бы изменить размер блока файлов в DFS Hadoop (с 64 МБ до 128 МБ). Я не могу найти, как сделать...
Это - концептуальный вопрос, включающий Hadoop/HDFS. Позволяет говорят, что у Вас есть файл, содержащий 1 миллиард строк. И ради простоты, позволяет, полагают, что каждая строка имеет форму <k, v> где...
Я пытаюсь использовать это на следующем df, но не знаю, как spark-shell -jars com.databricks_spark-xml_2.10-0.2.0.jar import org.json._ import com.databricks.spark.xml.XmlReader val parq = ...
Я кодирую идею и использую spark-submit для запуска. Я получаю данные из hdfs, а затем разбираюсь с ним. Но я не понимаю, почему это происходит? Есть еще один простой код, который не показан. Я уверен, что они ...
Я изучаю Hadoop, и я правильно установил кластер Hadoop узла (версия: 2.7.3) на моем Mac. Я уже загрузил несколько текстовых файлов в свой HDFS, и сегодня, когда я пытаюсь создать новый каталог ...
Я попытался установить Hadoop, следуя этому http: //hadoop.apache. org / common / docs / stable / single_node_setup.html документ.
Когда я попытался выполнить этот bin / hadoop jar hadoop-examples - *. Jar grep input ...
im изучая класс Mapper и Reducer в Hadoop. Я не могу понять, почему эти классы определяются как общие. Что это значит? Я всегда изучал общие для списков и массива ...
Помогите мне понять разницу между пространством имен и метаданными. Что такое содержимое, находящееся в пространстве имен и использование пространства имен
Когда я выполняю mapreduce использование программы Hadoop, я получаю следующую ошибку. 01.10.18 10:52:48 ИНФОРМАЦИИ mapred. JobClient: идентификатор Задачи: attempt_201001181020_0002_m_000014_0, Состояние: ОТКАЗАВШИЙ java.io. IOException:...
В общей программе mapreduce, такой как количество слов, мы имеем: public static class MyMapper extends Mapper (Object, Text, Text / * output key class * /, IntWritable / * output value class * /) {public void main (...). ..
Я изучал mapreduce алгоритм и как он может потенциально масштабироваться к миллионам машин, но я не понимаю, как сортировка промежуточных ключей после фазы карты может масштабироваться...
Когда я запускаю файл Hadoop .jar из командной строки, он выдает исключение, в котором говорится, что такой метод не является методом StockKey. StockKey - мой пользовательский класс, определенный для моего собственного типа ключа. Здесь ...
Env: hive 2.1.1, указывающий на таблицы на S3 Spark 2.3.0 (автономный режим) Hadoop 2.8.3 без hdfs Используя beeline для запроса sparksql (порт 10015, который был открыт службой бережливости), выберите * на таблицах с ...
У меня есть сжатый Hadoop SequenceFile от клиента, который я хотел бы проверить. В настоящее время у меня нет полной информации о схеме (над которой я работаю отдельно). Но между тем (и в ...
предположите, что у меня есть эта таблица RDBM (Entity-attribute-value_model): col1: entityID col2: attributeName col3: значение и я хотим использовать HBase из-за масштабирования проблем. Я знаю что единственный способ получить доступ...
Учитывая, что сложность карты и уменьшает задачи, O (карта) =f (n), и O (уменьшают) =g (n), имеет кого-либо занявшего время, чтобы записать как Отображение/Уменьшение внутренних операций (сортировка, перестановка, отправка...
В последнее время, Я много читал о MapReduce / Hadoop и думаю, что это то место, куда сейчас движется индустрия. Я хочу начать изучать MapReduce / Hadoop, и я подумал, что лучший способ начать это ...
Есть ли способ изменить действительный и существующий объект Hadoop Path в полезный объект Java File. Есть хороший способ сделать это, или мне нужно, чтобы дубинкой кодировать в представлении? Тем более очевидно ...