12
ответов

«Верхний предел GC превышен» на Hadoop [дубликат]

У меня есть проект, который выполняет некоторую индексацию для полнотекстового поиска. Для этого я использую hadoop. Я получаю сообщение об ошибке: «превышен лимит накладных расходов GC» Задача TASKID = «tip_201610111152_0066_r_000033« TASK_TYPE = "...
вопрос задан: 24 May 2016 12:12
11
ответов

Ошибка при установке Hadoop. Java_home не установлен [дубликат]

Я устанавливаю Hadoop 3 в Ubuntu 17.10, следуя инструкциям в ссылке. Выполняя скрипт /usr/local/hadoop/sbin/start-all.sh, я становлюсь ниже ошибки. / USR / местные / Hadoop / SBIN / старт -...
вопрос задан: 14 January 2013 22:23
8
ответов

Apache Spark: тестовый набор данных isEmpty? [Дубликат]

Я новичок в Spark Java API. Я хочу знать, что является лучшим способом проверить, не является ли набор данных пустым? Я попробовал это. if (ds! = null & amp;! ds.takeAsList (1) .isEmpty ()) Кажется, для этого требуется время. Является ...
вопрос задан: 22 September 2015 02:52
8
ответов

Нестатическая переменная, на которую нельзя ссылаться из статического контекста в функции mapper [duplicate]

Я написал программу для уменьшения карты со следующим пользовательским классом Writable: public class compoWritable реализует Writable, WritableComparable & lt; compoWritable & gt; {int rnode; int snode; ...
вопрос задан: 24 April 2012 17:20
7
ответов

Жизнь без СОЕДИНЕНИЙ … понимание и общие методы

Много "BAW" s (веб-сайты большой задницы) использует хранение данных и методы извлечения, которые полагаются на огромные таблицы с индексами и использующие запросы, которые/могут, использование Участвует в их запросах (BigTable, HQL...
вопрос задан: 23 May 2017 12:02
6
ответов

Существует ли.NET, эквивалентная Apache Hadoop? [закрытый]

Так, я смотрел на Hadoop с пристальным интересом, и быть честным я очарован, вещи не становятся намного более прохладными. Моя единственная незначительная проблема, я - разработчик C#, и это находится в Java. Не то, чтобы я не делаю...
вопрос задан: 9 March 2013 15:16
6
ответов

Hbase / Справка Запроса Hadoop

Я работаю над проектом с другом, который использует Hbase для хранения, это - данные. Там хорошо работают примеры запроса? Я, кажется, пишу тонну кода Java для итерации через списки RowResult...
вопрос задан: 7 September 2008 02:14
5
ответов

Не удалось получить имена фактических столбцов из файла ORC в Spark [duplicate]

Мы запускаем два кластера Hadoop, на котором работает только Hive, а другой работает только Spark. Теперь я пытаюсь прочитать таблицу улья, читая файлы ORC непосредственно в искровом режиме. sparkSession.read.orc (...
вопрос задан: 10 October 2016 12:45
5
ответов

Масштабируемое устройство хранения данных изображения

Я в настоящее время разрабатываю архитектуру для веб-приложения, которое должно также обеспечить некоторое устройство хранения данных изображения. Пользователи смогут загрузить фотографии как одну из основной характеристики сервиса...
вопрос задан: 15 August 2015 11:56
5
ответов

Hadoop put vs copyFromLocal [дубликат]

Тем не менее, я смущен, какая разница между put и copyFromLocal. Много форум и блог сообщают, что оба они одинаковы и ничего не имеют. Может быть, у вас есть лучшая идея и какая точка зрения ...
вопрос задан: 18 October 2011 18:29
5
ответов

Действительно ли Hadoop является правильным для выполнения моих моделирований?

записали стохастическое моделирование в Java, который загружает данные из нескольких файлов CSV на диске (всего приблизительно 100 МБ) и пишет результаты в другой выходной файл (не много данных, просто булевская переменная и некоторые...
вопрос задан: 19 October 2009 16:49
5
ответов

как реализовать вычисление собственного значения с MapReduce/Hadoop?

Это возможно, потому что PageRank был формой собственного значения и именно поэтому представленного MapReduce. Но там кажется, что проблемы в фактической реализации, такие как каждый ведомый компьютер должны поддержать копию...
вопрос задан: 23 December 2008 16:30
4
ответа

Бесплатные Большие наборы данных для экспериментирования с Hadoop

Вы знаете, что какой-либо большой набор данных экспериментирует с Hadoop, который свободен/недорогой? Любые связанные указатели/ссылки ценятся. Предпочтение: По крайней мере один ГБ данных. Производственные данные логов веб-сервера...
вопрос задан: 30 July 2019 18:21
4
ответа

Конфигурирование Hadoop, регистрирующегося для предотвращения слишком многих файлов журнала

У меня есть проблема с Hadoop, производящим слишком много файлов журнала в $HADOOP_LOG_DIR/userlogs (файловая система Ext3 позволяет только 32 000 подкаталогов), который похож на ту же проблему в этом вопросе:...
вопрос задан: 23 May 2017 11:46
4
ответа

Объединение в цепочку нескольких заданий MapReduce в Hadoop

Во многих реальных ситуациях, где Вы применяете MapReduce, заключительные алгоритмы заканчивают тем, что были несколькими шагами MapReduce. т.е. Map1, Reduce1, Map2, Reduce2, и так далее. Таким образом, у Вас есть вывод от...
вопрос задан: 1 May 2017 18:03
4
ответа

Hadoop одна Карта и несколько Уменьшают

У нас есть большой набор данных для анализа с несколькими, уменьшают функции. Все уменьшают работу алгоритма над тем же набором данных, сгенерированным той же функцией карты. Чтение большого набора данных стоит слишком много, чтобы сделать это...
вопрос задан: 6 February 2016 22:16
4
ответа

Как рассказать PySpark, где находится пакет pymongo-spark? [Дубликат]

Я создаю Data Science env't на ноутбуке с Ubuntu 14.04 LTS. Инструкции приведены в главе 2 Agile Data Science от Russell Jurney. Мне нужно настроить PySpark, чтобы поговорить с MongoDB, используя ...
вопрос задан: 17 November 2015 18:58
4
ответа

Почему ORC-таблица извлекает вставленные данные, но не загружает данные в куст [duplicate]

Я создаю одну таблицу как формат файла ORC и вставляю данные: hive & gt; создать таблицу test1 (id int, строку имени), хранящуюся как ORC; Улей & GT; вставить в значения test1 (1, «Riyaz»); Улей & GT; вставлять в ...
вопрос задан: 6 January 2015 15:11
4
ответа

Различие между Свиньей и Hive? Почему оба имеют? [закрытый]

Мое образование - 4 недели в мире Hadoop. Плескавшийся немного в Hive, Pig и Hadoop с помощью Hadoop VM Cloudera. Прочитали газету Google на MapReduce и GFS (ссылка PDF). Я понимаю это - Свинья...
вопрос задан: 5 January 2015 03:23
4
ответа

Распределенное планирование Задания, управление и создание отчетов

Я недавно имел игру вокруг с Hadoop и был впечатлен, он планирует, управление, и сообщает заданий MapReduce. Это, кажется, делает распределение и выполнение новых заданий вполне...
вопрос задан: 5 May 2012 06:43
4
ответа

Где я запускаю с распределенных вычислений?

Я интересуюсь изучением методов для распределенных вычислений. Как Java-разработчик, я, вероятно, готов запуститься с Hadoop. Вы могли рекомендовать некоторые книги/учебные руководства/статьи для начала?
вопрос задан: 2 May 2012 07:43
4
ответа

Hadoop java.lang.OutOfMemoryError: превышен верхний предел GC [дубликат]

Я работаю над проектом hadoop, и я пытаюсь построить алгоритм с разделенным полу-объединением. Я новичок в hadoop, и хотя я еще не все понял, у меня возникли некоторые проблемы. Теперь я в первом ...
вопрос задан: 11 April 2012 16:56
4
ответа

Java или распределенный Python вычисляют задание (на студенческом бюджете)?

У меня есть большой набор данных (c. 40G), что я хочу использовать для некоторой обработки естественного языка (в основном смущающе параллельный) по нескольким компьютерам в лаборатории, к которой у меня нет корневого доступа и только 1G пространства поль
вопрос задан: 16 May 2010 14:28
4
ответа

Какая-либо масштабируемая база данных OLAP (масштаб веб-приложения)?

У меня есть приложение, которое требует аналитики для другого уровня агрегирования, и это - рабочая нагрузка OLAP. Я хочу обновить свою базу данных довольно часто также. например, вот что мое обновление...
вопрос задан: 28 January 2010 19:55
4
ответа

Как Вы используете MapReduce/Hadoop? [закрытый]

Я ищу немного общей информации о том, как другие люди используют Hadoop или другие подобные MapReduce технологии. В целом мне любопытно к тому, пишете ли Вы приложения MR для обработки...
вопрос задан: 1 December 2008 16:31
4
ответа

Опыт с Hadoop?

Какой-либо из Вас попробовал Hadoop? Это может использоваться без распределенной файловой системы, которая идет с ним в Доле - ничто архитектура? Это имело бы смысл? Мне также интересно в любую производительность...
вопрос задан: 26 September 2008 15:34
3
ответа

PySpark: порядок извлечения и фильтрации данных для эффективности (& gt; 1 бит записей) [дубликат]

Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...
вопрос задан: 7 February 2016 19:15
3
ответа

Создать список файлов hdfs из RemoteIterator [duplicate]

У вас возникли проблемы с созданием списка файлов из RemoteIterator Spark, итерации объекта каталога HDFS с использованием hdfs listFiles. Я могу использовать hasNext (), но я просто хочу, чтобы иметь возможность обрабатывать ...
вопрос задан: 25 September 2015 03:50
3
ответа

Используя Hadoop, мои редукторы, как гарантируют, получат все записи с тем же ключом?

Я выполняю задание Hadoop с помощью Hive на самом деле, который предполагается к uniq строкам во многих текстовых файлах. На уменьшать шаге это выбирает последний раз запись с меткой времени для каждого ключа. Делает гарантию Hadoop...
вопрос задан: 5 May 2015 21:33
3
ответа

error: Не удалось найти или загрузить основной класс com.sun.tools.javac.Main в Hadoop [duplicate]

Я только начал использовать Hadoop, и я попробовал этот учебник http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Usage, но когда я попробуй ...
вопрос задан: 25 March 2015 17:13