2
ответа

Твиттер (Социальная сеть) Набор данных

Я ищу Твиттер или другой набор данных сайтов социальных сетей для моего проекта. У меня в настоящее время есть набор данных Твиттера CAW 2.0, но он только содержит твиты пользователей. Я хочу данные, которые показывают число...
вопрос задан: 29 December 2015 21:53
2
ответа

Почему Apache Spark быстрее, чем Hadoop MapReduce [дубликат]

Я уже тестировал Apache Spark и Hadoop MapReduce с помощью TestDFSIO. Целью является тестирование производительности узкого места ввода-вывода в сети. Это приводит к тому, что Apache Spark работает быстрее, чем Hadoop. ...
вопрос задан: 16 August 2015 11:16
2
ответа

Обработать несколько путей HDFS параллельно [дублировать]

У меня есть файл, который содержит много hdfs-путей. каждый путь HDFS содержит некоторые файлы JSON. Я хочу обработать все эти json-файлы, которые обновляются за последние 24 часа. На данный момент я читаю файл, который ...
вопрос задан: 11 August 2015 16:52
2
ответа

Как объект Context работает в hadoop? [Дубликат]

Я изучаю хаоп. И для подсчета слов у меня есть код для картографа. То же самое с одним вопросом, который уже существует в стеке над потоком, но этот ответ не может удовлетворить наши сомнения. пакет com ....
вопрос задан: 1 June 2015 19:11
2
ответа

Каков должен быть hadoop.tmp.dir?

Hadoop имеет параметр конфигурации hadoop.tmp.dir, который, согласно документации, является '"Основой для других временных каталогов". Я предполагаю, этот путь относится к локальной файловой системе. Я установил это значение к/...
вопрос задан: 26 January 2015 14:49
2
ответа

MapReduce Amazon никакое задание редуктора

Я пытаюсь создать картопостроитель только задание через AWS (задание потоковой передачи). Поле редуктора требуется, таким образом, я даю фиктивный исполняемый файл и добавляю-jobconf mapred.map.tasks=0 к полю Extra Args. В...
вопрос задан: 31 October 2013 03:55
2
ответа

Как исправить & ldquo; Задаче попытки_201104251139_0295_r_000006_0 не удалось сообщить о состоянии в течение 600 секунд. & Rdquo;

Я написал задание mapreduce для извлечения некоторой информации из набора данных. Набор данных - это рейтинг пользователей о фильмах. Количество пользователей составляет около 250 тыс., А количество фильмов около 300 тыс. Результатом карты является & ...
вопрос задан: 13 July 2012 01:30
2
ответа

Как я управляю именем выходных файлов и содержанием Hadoop, передающего задание потоком?

Существует ли способ управлять выходными именами файлов Hadoop Потоковая передача задания? Конкретно я хотел бы, чтобы содержание выходных файлов моего задания и имя были организованы кетом выводы редуктора - каждый файл...
вопрос задан: 24 May 2012 22:52
2
ответа

Бесплатное хранилище данных - Infobright, Hadoop/Hive или что?

Я должен сохранить большую сумму маленьких объектов данных (миллионы строк в месяц). После того как они сохраняются они изменение привычки. Я должен: сохраните их, надежно используют их для анализа (главным образом ориентированный на время)...
вопрос задан: 23 May 2012 06:24
2
ответа

Отсортированный подсчет слов с помощью MapReduce Hadoop

Я очень плохо знаком с MapReduce, и я завершил пример Hadoop для подсчета количества слов. В том примере это производит неотсортированный файл (с парами "ключ-значение") подсчетов слов. Так это возможный отсортировать его по количеству...
вопрос задан: 7 March 2012 00:32
2
ответа

Альтернативы MapReduce

Существуют ли какие-либо альтернативы MapReduce (Google, Hadoop)? Есть ли другой разумный способ разделить и объединить большие проблемы?
вопрос задан: 1 January 2012 11:07
2
ответа

MapReduce на AWS

Кто-либо играл вокруг с MapReduce на AWS уже? Какие-либо мысли? Как реализация?
вопрос задан: 7 October 2011 18:01
2
ответа

Pig Latin: загрузка нескольких файлов из диапазона дат (часть структуры каталога)

У меня есть следующие Сценарий - используется версия 0,70 Пример структуры каталогов HDFS: / пользователь / обучение / тестирование / 20100811 / <файлы данных> /user/training/...
вопрос задан: 26 August 2010 19:10
2
ответа

Объединение нескольких файлов в один в Hadoop

Я помещаю несколько маленьких файлов в мой входной каталог, который хочу объединить в один файл, не используя локальную файловую систему и не записывая mapreds. Есть ли способ, которым я мог бы сделать это, используя hadoof fs ...
вопрос задан: 23 August 2010 13:59
2
ответа

Как подключиться к Hadoop / Hive из .NET

Я работаю над решением, в котором У меня будет кластер Hadoop с запущенным Hive, и я хочу отправлять задания и запросы кустов из приложения .NET для обработки и получать уведомления, когда они будут выполнены. Я ...
вопрос задан: 16 August 2010 14:03
2
ответа

MultipleOutputFormat в hadoop

Я - новичок в Hadoop. Я испытываю программу Wordcount. Теперь для испытания нескольких выходных файлов я использую MultipleOutputFormat., эта ссылка помогла мне в выполнении его. http://hadoop.apache.org/common/docs/...
вопрос задан: 16 August 2010 06:42
2
ответа

Как таблица разделов HBase на серверах регионов?

Скажите, пожалуйста, как таблица разделов HBase на серверах регионов. Например, пусть Означает ли это, что первый регион-сервер ...
вопрос задан: 5 August 2010 19:34
2
ответа

Я могу получить invidually отсортированные выводы Картопостроителя от Hadoop при использовании нулевых Редукторов?

У меня есть задание в Hadoop 0.20, который должен воздействовать на большие файлы по одному. (Это - шаг предварительной обработки для получения файловых данных в инструмент для очистки, основанный на строке формат, более подходящий для MapReduce.)...
вопрос задан: 25 June 2010 12:38
2
ответа

Получение по запросу данных из MySQL в Hadoop

Я просто начинаю с изучением Hadoop, и я задаюсь вопросом следующее: предположите, что у меня есть набор больших производственных таблиц MySQL, которые я хочу проанализировать. Кажется, что я должен вывести весь...
вопрос задан: 19 June 2010 08:04
2
ответа

Проблема с копированием локальных данных на HDFS на кластере Hadoop использование Amazon EC2/S3

Я имею, устанавливают кластер Hadoop, содержащий 5 узлов на Amazon EC2. Теперь, когда я вхожу в систему в Главный узел и отправляю следующую команду bin/hadoop банка <программа> .jar <arg1> <arg2> и...
вопрос задан: 9 June 2010 21:02
2
ответа

Нуждаюсь в помощи реализовывая этот алгоритм с картой MapReduce Hadoop

у меня есть алгоритм, который пройдет большой набор данных, читает некоторые текстовые файлы и ищут определенные условия в тех строках. Мне реализовали его в Java, но я не хотел к почтовому индексу так, чтобы это не делало...
вопрос задан: 7 June 2010 17:17
2
ответа

Эффективный способ сохранить график для вычисления в Hadoop

Я в настоящее время пытаюсь выполнить вычисления как коэффициент кластеризации на огромных графиках с помощью Hadoop. Поэтому мне нужен эффективный способ сохранить график способом, что я могу легко получить доступ...
вопрос задан: 10 May 2010 19:22
2
ответа

Как использовать Mahout в среде Windows?

Я пытаюсь использовать Mahout в приложении, работающем на Windows. Я хочу создать кластеры из индекса lucene с помощью k-средств. Как только я должен создать файлы последовательности (создающий векторы из lucene...
вопрос задан: 2 May 2010 06:40
2
ответа

Как выбрать случайное (маленькое) демонстрационное использование данных, Отображают/Уменьшают?

Я хочу записать отобразить/уменьшить задание для выбора многих случайных выборок из большого набора данных на основе условия уровня строки. Я хочу минимизировать количество промежуточных ключей. Псевдокод: для каждого...
вопрос задан: 25 March 2010 08:48
2
ответа

Понятия и инструменты, требуемые увеличить масштаб алгоритмов

Я хотел бы начать думать о том, как я могу увеличить масштаб своих алгоритмов, которые я пишу для анализа данных так, чтобы они могли быть применены к произвольно большим наборам данных. Интересно, каковы соответствующие понятия (...
вопрос задан: 10 March 2010 06:21
2
ответа

Вопрос на hadoop “java.lang. RuntimeException: java.lang. ClassNotFoundException”:

Вот мой импорт исходного кода java.io. DataInput; импорт java.io. DataOutput; импорт java.io. IOException; импорт java.util. ArrayList; импорт java.util.regex. Matcher; импорт java.util.regex. Шаблон;...
вопрос задан: 1 January 2010 13:20
2
ответа

Java по сравнению с Python на Hadoop

Я работаю над использованием проекта Hadoop, и это, кажется, исходно включает Java и оказывает поддержку потоковой передачи для Python. Есть ли существует значительное влияние производительности на выбор того по другому?...
вопрос задан: 26 September 2009 10:55
2
ответа

Различия в распределении Hadoop

Может кто-то обрисовывать в общих чертах различные различия между различными доступными Дистрибутивами Hadoop: Cloudera - http://www.cloudera.com/hadoop Yahoo - http://developer.yahoo.net/blogs/hadoop/ с помощью...
вопрос задан: 11 September 2009 18:33
2
ответа

Вытирание DFS в Hadoop

Как я вытираю DFS в Hadoop?
вопрос задан: 10 September 2009 23:46
2
ответа

Как я могу просмотреть размер единицы выделения раздела NTFS в Vista?

Который встроил (если таковые имеются) инструмент, я могу использовать для определения размера единицы выделения определенного раздела NTFS?
вопрос задан: 11 May 2009 11:21