0
ответов

Разница в вызове задания

В чем разница между вызовом задания mapreduce из main() и из ToolRunner.run()? Когда мы говорим, что основной класс говорит MapReduce extends Configured реализует Tool , что такое ...
вопрос задан: 25 March 2012 11:05
0
ответов

Вызов задания mapreduce из простой Java-программы

Я пытался вызвать задание mapreduce из простой Java-программы в том же пакете.. Я пытался сослаться на файл jar mapreduce в моей Java-программе и вызовите его с помощью runJar(String args[]) ...
вопрос задан: 25 March 2012 07:37
0
ответов

Scala/Hadoop: определение контекста для редуктора

Прежде чем приступить к игре со Scoobi или Scrunch, я решил попробовать портировать WordCount на scala (2.9.1), используя только Hadoop (0.20.1) Java-привязки. Первоначально у меня было: class Map extends Mapper[...
вопрос задан: 25 March 2012 01:57
0
ответов

У Hive есть что-то эквивалентное DUAL?

Я хотел бы запустить такие операторы, как SELECT date_add('2008-12-31', 1) FROM DUAL Есть ли что-то подобное в Hive (работающем на Amazon EMR)?
вопрос задан: 20 March 2012 22:00
0
ответов

Как проверить, работает ли R как Rscript?

У меня есть код в одном файле R, который я хочу получить (т. е. определить свои функции и т. д.) в RStudio во время разработки, а также запустить с помощью #! /usr/bin/env Синтаксис Rscript через ...
вопрос задан: 20 March 2012 16:44
0
ответов

Запустите аналитику на огромной базе данных MySQL

У меня есть база данных MySQL с несколькими (пятью, если быть точным) огромными таблицами. По сути, это хранилище данных на основе звездообразной топологии. Размеры таблиц варьируются от 700 ГБ (таблица фактов) до 1 ГБ, а вся база данных…
вопрос задан: 20 March 2012 14:15
0
ответов

проблемы с запуском простой карты-уменьшение примеров Hadoop в cygwin

Я просто пытаюсь запустить Hadoop на своем ноутбуке с 64-битной-битной Windows 7 в автономном режиме. Я установил Cygwin 1.7 в папку по умолчанию (c:\cygwin). У меня есть последняя версия JDK в папке c:\...
вопрос задан: 18 March 2012 02:27
0
ответов

Получить столбцы в определенном семействе столбцов для строки HBase

Я пишу приложение, которое показывает данные в определенной таблице в HBase с помощью JSP. Я хочу получить все столбцы в определенном семействе столбцов для строки. есть ли способ сделать это?
вопрос задан: 17 March 2012 11:28
0
ответов

identityreducer в новом API Hadoop

Я потратил почти день, но так и не смог понять, как использовать IdentityReducer в новом API Hadoop. Все ссылки или классы, которые я могу найти, относятся к старому API. И явное смешение старого API...
вопрос задан: 17 March 2012 03:11
0
ответов

Умножение матриц Hadoop

Я запускал программу умножения матриц MapReduce, которую можно найти на http://www.norstad.org/matrix-multiply/index. .html. Я обнаружил, что эта реализация не работает должным образом, когда есть 0 в ...
вопрос задан: 16 March 2012 16:41
0
ответов

Задание mapreduce с вводом простого текста и выводом avro

Я немного запутался в использовании Avro с уменьшением карты и не могу найти хороших руководств для подражания. Кажется, что такие классы, как AvroJob и AvroMapper, предназначены для решения проблем, когда и ввод, и вывод являются ...
вопрос задан: 15 March 2012 23:32
0
ответов

Как анализировать CustomWritable из текста в Hadoop

Скажем, у меня есть временные метки для конкретных пользователей в текстовых файлах, например #userid; unix-временная метка; ценность 1; 01.01.2010 00:00:00; 10 2; 01.01.2010 00:00:00; 20 1; 01.01.2010 01:00:00; 11 2; 2010-01-01 01:...
вопрос задан: 15 March 2012 14:25
0
ответов

Amazon EC2 против PiCloud [закрыто]

Мы студенты, пытающиеся обрабатывать данные объемом около 140 миллионов записей и запускать несколько алгоритмов машинного обучения. мы новичок во всех облачных решениях и реализациях mahout....
вопрос задан: 11 March 2012 07:00
0
ответов

Hbase: Как указать имя хоста для Hbase master

Я пытаюсь настроить распределенный кластер Hbase с 2 узлами, один из которых — моя машина, а другой — виртуальная машина, используя адаптер «только для хоста» в VirtualBox. Моя проблема в том, что региональный сервер (от VM ...
вопрос задан: 8 March 2012 10:01
0
ответов

Самый простой способ в Gradle получить путь к jar-файлу в кеше зависимостей Gradle

Я использую Gradle для автоматизации задач Hadoop. При вызове Hadoop мне нужно иметь возможность передать ему путь к некоторым jar-файлам, от которых зависит мой код, чтобы Hadoop мог отправить эту зависимость во время ...
вопрос задан: 6 March 2012 04:33
0
ответов

Каковы плюсы и минусы выполнения задания в Hadoop с использованием разных языков?

До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий в кластере Hadoop. Недавно я пробовал использовать Python Map Reduce через потоковую передачу Hadoop, и это...
вопрос задан: 5 March 2012 15:14
0
ответов

Как передать параметр в задание потоковой передачи Python Hadoop?

Для задания потоковой передачи Python Hadoop, как передать параметр, например, в сценарий редуктора чтобы он вел себя по-разному в зависимости от переданного параметра? Я понимаю, что потоковые задания ...
вопрос задан: 1 March 2012 00:43
0
ответов

Необычная ошибка Hadoop - задачи завершаются сами по себе

Когда я запускаю свой hadoop job Я получаю следующую ошибку: Получен запрос на завершение задачи «попытка_201202230353_23186_r_000004_0» пользователем Задача была KILLED_UNCLEAN пользователем. Журналы кажутся чистыми ....
вопрос задан: 29 February 2012 20:33
0
ответов

Анализ файлов PDF в Hadoop Map Reduce

Мне нужно проанализировать файлы PDF, которые находятся в HDFS, в программе Map Reduce в Hadoop. Итак, я получаю PDF-файл из HDFS по мере того, как входные данные разделяются, и его нужно проанализировать и отправить в класс Mapper. Для реализации ...
вопрос задан: 24 February 2012 08:41
0
ответов

Большие наборы данных - NoSQL, NewSQL, SQL ..? Brain Fried

Мне нужен совет. Я работаю над новым стартапом в области интеллектуального анализа данных. По сути, это результат исследовательского проекта. В любом случае у нас есть большой объем неструктурированных данных, мы ...
вопрос задан: 23 February 2012 12:13
0
ответов

Невозможно запустить UDF на сервере куста

Я использую куст в режиме экономичного сервера. У меня есть UDF в файле jar, который я пытаюсь использовать, запустив add jar создать временную функцию func_name как 'com.test.udf.UDF_CLASS' ...
вопрос задан: 23 February 2012 05:21
0
ответов

Как писать задания hadoop «только карта»?

Я новичок в hadoop, я знаком со стилем программирования map-reduce, но теперь я столкнулся с проблемой: иногда мне нужна только карта для задание, и мне нужен только результат карты как результат, ...
вопрос задан: 22 February 2012 12:06
0
ответов

Может ли Hadoop распределять задачи и базу кода?

Я начинаю экспериментировать с hadoop (но пока у меня нет доступа к кластеру, поэтому просто поиграю в автономном режиме). У меня вопрос: как только задачи распределяются в кластере, и как ...
вопрос задан: 17 February 2012 15:13
0
ответов

Предложения по распространению данных / кода Python по рабочим узлам?

Я начинаю заниматься распределенным кодом, и у меня возникают проблемы с определением, какое решение соответствует моим потребностям на основе всего имеющегося там материала. В основном у меня есть список данных на языке Python, которые мне нужны ...
вопрос задан: 16 February 2012 20:54
0
ответов

Как сохранить сгруппированные записи в несколько файлов с помощью Pig?

После загрузки и группировки записей, как я могу сохранить эти сгруппированные записи в несколько файлов, по одному на группу (= идентификатор пользователя)? записи = ЗАГРУЗИТЬ 'ввод' AS (идентификатор пользователя: int, ...); grouped_records = ГРУППА З
вопрос задан: 16 February 2012 16:12
0
ответов

Карта Hadoop / Reduce против встроенной карты / Reduce

В чем заключаются основные отличия между отображением / сокращением работы в MongoDB с использованием карты / сокращения Hadoop и встроенной карты / сокращения Mongo? Когда мне выбрать движок map / reduce? каковы плюсы и минусы каждого из них ...
вопрос задан: 16 February 2012 11:29
0
ответов

$ HADOOP_HOME устарело

Я запустил кластер HADOOP. Я получаю это предупреждающее сообщение: $ HADOOP_HOME устарел. Я уже добавил экспорт HADOOP_HOME_WARN_SUPPRESS = "TRUE" в hadoop-env.sh Когда я запускал кластер, я не ...
вопрос задан: 15 February 2012 02:07
0
ответов

Как указать сопоставленные конфигурации и параметры java с настраиваемым jar-файлом в CLI с помощью Amazon EMR?

Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.size и т. Д. при запуске задания потоковой передачи с использованием настраиваемого файла jar. Мы можем использовать следующий способ ...
вопрос задан: 14 February 2012 20:45
0
ответов

Hive join устанавливает количество редукторов

Мне нужно установить количество редукторов при выполнении операции объединения в Hive. Я не хочу устанавливать одинаковое количество редукторов для каждой работы по объединению, которая у меня есть. Как я могу назвать это аргументом? Заранее спасибо.
вопрос задан: 13 February 2012 18:44
0
ответов

О разделении файлов Hadoop / HDFS

Хочу подтвердить следующее. Пожалуйста, проверьте, правильно ли это: 1. Насколько я понимаю, когда мы копируем файл в HDFS, это момент, когда файл (при условии, что его размер> 64MB = размер блока HDFS) ...
вопрос задан: 13 February 2012 10:36