В чем разница между вызовом задания mapreduce из main() и из ToolRunner.run()? Когда мы говорим, что основной класс говорит MapReduce extends Configured реализует Tool , что такое ...
Я пытался вызвать задание mapreduce из простой Java-программы в том же пакете.. Я пытался сослаться на файл jar mapreduce в моей Java-программе и вызовите его с помощью runJar(String args[]) ...
Прежде чем приступить к игре со Scoobi или Scrunch, я решил попробовать портировать WordCount на scala (2.9.1), используя только Hadoop (0.20.1) Java-привязки. Первоначально у меня было: class Map extends Mapper[...
У меня есть код в одном файле R, который я хочу получить (т. е. определить свои функции и т. д.) в RStudio во время разработки, а также запустить с помощью #! /usr/bin/env Синтаксис Rscript через ...
У меня есть база данных MySQL с несколькими (пятью, если быть точным) огромными таблицами. По сути, это хранилище данных на основе звездообразной топологии. Размеры таблиц варьируются от 700 ГБ (таблица фактов) до 1 ГБ, а вся база данных…
Я просто пытаюсь запустить Hadoop на своем ноутбуке с 64-битной-битной Windows 7 в автономном режиме. Я установил Cygwin 1.7 в папку по умолчанию (c:\cygwin). У меня есть последняя версия JDK в папке c:\...
Я пишу приложение, которое показывает данные в определенной таблице в HBase с помощью JSP. Я хочу получить все столбцы в определенном семействе столбцов для строки. есть ли способ сделать это?
Я потратил почти день, но так и не смог понять, как использовать IdentityReducer в новом API Hadoop. Все ссылки или классы, которые я могу найти, относятся к старому API. И явное смешение старого API...
Я запускал программу умножения матриц MapReduce, которую можно найти на http://www.norstad.org/matrix-multiply/index. .html. Я обнаружил, что эта реализация не работает должным образом, когда есть 0 в ...
Я немного запутался в использовании Avro с уменьшением карты и не могу найти хороших руководств для подражания. Кажется, что такие классы, как AvroJob и AvroMapper, предназначены для решения проблем, когда и ввод, и вывод являются ...
Мы студенты, пытающиеся обрабатывать данные объемом около 140 миллионов записей и запускать несколько алгоритмов машинного обучения. мы новичок во всех облачных решениях и реализациях mahout....
Я пытаюсь настроить распределенный кластер Hbase с 2 узлами, один из которых — моя машина, а другой — виртуальная машина, используя адаптер «только для хоста» в VirtualBox. Моя проблема в том, что региональный сервер (от VM ...
Я использую Gradle для автоматизации задач Hadoop. При вызове Hadoop мне нужно иметь возможность передать ему путь к некоторым jar-файлам, от которых зависит мой код, чтобы Hadoop мог отправить эту зависимость во время ...
До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий в кластере Hadoop. Недавно я пробовал использовать Python Map Reduce через потоковую передачу Hadoop, и это...
Для задания потоковой передачи Python Hadoop, как передать параметр, например, в сценарий редуктора чтобы он вел себя по-разному в зависимости от переданного параметра? Я понимаю, что потоковые задания ...
Когда я запускаю свой hadoop job Я получаю следующую ошибку: Получен запрос на завершение задачи «попытка_201202230353_23186_r_000004_0» пользователем
Задача была KILLED_UNCLEAN пользователем. Журналы кажутся чистыми ....
Мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе Map Reduce в Hadoop. Итак, я получаю PDF-файл из HDFS по мере того, как входные данные разделяются, и его нужно проанализировать и отправить в класс Mapper. Для реализации ...
Мне нужен совет. Я работаю над новым стартапом в области интеллектуального анализа данных. По сути, это результат исследовательского проекта. В любом случае у нас есть большой объем неструктурированных данных, мы ...
Я использую куст в режиме экономичного сервера. У меня есть UDF в файле jar, который я пытаюсь использовать, запустив add jar
создать временную функцию func_name как 'com.test.udf.UDF_CLASS' ...
Я новичок в hadoop, я знаком со стилем программирования map-reduce, но теперь я столкнулся с проблемой: иногда мне нужна только карта для задание, и мне нужен только результат карты как результат, ...
Я начинаю экспериментировать с hadoop (но пока у меня нет доступа к кластеру, поэтому просто поиграю в автономном режиме). У меня вопрос: как только задачи распределяются в кластере, и как ...
Я начинаю заниматься распределенным кодом, и у меня возникают проблемы с определением, какое решение соответствует моим потребностям на основе всего имеющегося там материала. В основном у меня есть список данных на языке Python, которые мне нужны ...
После загрузки и группировки записей, как я могу сохранить эти сгруппированные записи в несколько файлов, по одному на группу (= идентификатор пользователя)? записи = ЗАГРУЗИТЬ 'ввод' AS (идентификатор пользователя: int, ...);
grouped_records = ГРУППА З
В чем заключаются основные отличия между отображением / сокращением работы в MongoDB с использованием карты / сокращения Hadoop и встроенной карты / сокращения Mongo? Когда мне выбрать движок map / reduce? каковы плюсы и минусы каждого из них ...
Я запустил кластер HADOOP.
Я получаю это предупреждающее сообщение: $ HADOOP_HOME устарел. Я уже добавил экспорт HADOOP_HOME_WARN_SUPPRESS = "TRUE" в hadoop-env.sh
Когда я запускал кластер, я не ...
Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.size и т. Д. при запуске задания потоковой передачи с использованием настраиваемого файла jar. Мы можем использовать следующий способ ...
Мне нужно установить количество редукторов при выполнении операции объединения в Hive. Я не хочу устанавливать одинаковое количество редукторов для каждой работы по объединению, которая у меня есть. Как я могу назвать это аргументом? Заранее спасибо.
Хочу подтвердить следующее. Пожалуйста, проверьте, правильно ли это:
1. Насколько я понимаю, когда мы копируем файл в HDFS, это момент, когда файл (при условии, что его размер> 64MB = размер блока HDFS) ...