3
ответа

ssc.filestream не может прочитать уже существующие файлы в каталоге [duplicate]

Я запускаю программу искрообразования, которая может контролировать и читать файлы из каталога HDFS. Однако я не мог читать уже существующие файлы в каталоге HDFS, если я запускаю streamig для ...
вопрос задан: 14 March 2015 11:04
3
ответа

Карта Уменьшает Платформы/Инфраструктуру

Карта Уменьшает, шаблон, который, кажется, получает большую тягу в последнее время, и я начинаю видеть, что он проявляет в одном из моих проектов, который фокусируется на конвейере обработки событий (iPhone Accelerometer и GPS...
вопрос задан: 14 July 2012 02:55
3
ответа

Существует ли хорошая библиотека для доступа к HBase из Python? [закрытый]

Я провел некоторое время, озираясь и все, что я мог найти, Jython. Это - опция, но является там чем-то, что могло использоваться в большем количестве pythonesque (более простой) путь?
вопрос задан: 26 January 2012 18:05
3
ответа

Новички Hadoop [закрываются]

Я пытаюсь практиковать некоторые алгоритмы анализа данных с помощью hadoop. Я могу сделать это с одним только HDFS, или я должен использовать подпроекты как hive/hbase/pig?
вопрос задан: 11 January 2012 15:56
3
ответа

Hadoop на Windows Server

Я думаю об использовании hadoop обрабатывать файлы крупного текста на своих существующих окнах 2 003 сервера (приблизительно 10 четырехъядерных машин с 16 ГБ RAM), вопросы: Есть ли любое хорошее учебное руководство о том, как...
вопрос задан: 11 January 2012 07:34
3
ответа

Regexp, соответствующий у свиньи

Используя апачскую свинью и текст hahahah. мой брат просто не сделал ничего плохого. Он обманул по поводу теста?ни за что! Я пытаюсь соответствовать "своему брату, просто не сделал ничего плохого". Идеально, я хотел бы...
вопрос задан: 19 July 2010 21:42
3
ответа

Есть ли какая-либо распределенная файловая система, которая работает на Windows кроме Hadoop? [закрытый]

Я отчаянно пытаюсь находить любой DFS, который поддерживает Windows. Единственное таким DFS является Hadoop HDFS, но очень трудно развернуть его другое большое количество машин Windows, потому что он требует Cygwin + SSH. Почти...
вопрос задан: 25 June 2010 11:48
3
ответа

Что лучший способ состоит в том, чтобы считать уникальными посетителями с Hadoop?

эй все, просто начав на hadoop и любопытный, что лучший способ в mapreduce состоял бы в том, чтобы считать уникальными посетителями, если бы Ваши файлы журнала были похожи на это... ДАТА siteID имя пользователя действия 05-05-...
вопрос задан: 21 May 2010 09:37
3
ответа

Отладка hadoop приложения

Я пытался распечатать значения с помощью System.out.println (), но они не появятся на консоли. Как я распечатываю значения в отобразить/уменьшить приложении для отладки использования целей Hadoop? Спасибо...
вопрос задан: 14 May 2010 14:31
3
ответа

Hadoop или Hadoop Streaming для MapReduce на AWS

Я собираюсь запустить mapreduce проект, который будет работать на AWS, и мне дарят выбор, для или использования Java или C++. Я понимаю, что запись проекта в Java сделала бы больше функциональности...
вопрос задан: 7 May 2010 19:13
3
ответа

Очень простой вопрос о Hadoop и сжатых входных файлах

Я начал изучать Hadoop. Если бы мое понимание является правильным, что я мог бы обработать очень большой файл, и оно разделить по различным узлам, однако если файл сжат затем, файл не мог...
вопрос задан: 11 April 2010 14:00
3
ответа

вопрос о новичках hadoop

Я прочитал некоторую документацию о hadoop и видел впечатляющие результаты. Я получаю большее изображение, но трудно, соответствовало ли оно нашей установке. Вопрос не программирует связанный, но я...
вопрос задан: 19 March 2010 23:00
3
ответа

Генерация Отдельных Выходных файлов в Потоковой передаче Hadoop

Только Используя картопостроитель (сценарий Python) и никакой редуктор, как я могу произвести отдельный файл с ключом как имя файла, для каждой строки вывода, вместо того, чтобы иметь долго файлы вывода?
вопрос задан: 26 October 2009 19:17
3
ответа

Запись данных к Hadoop

Я должен записать данные в в Hadoop (HDFS) из внешних источников как поле окон. Прямо сейчас я копировал данные на namenode и использовал помещенную команду HDFS для поглощения его в кластер...
вопрос задан: 7 October 2009 18:22
3
ответа

Расширенные запросы в HBase

Учитывая следующий сценарий схемы HBase (от официального FAQ)... Как Вы разработали бы таблицу Hbase для many-many ассоциации между двумя объектами, например, Студент и Курс?...
вопрос задан: 17 September 2009 10:36
3
ответа

Разделение входа в подстроки у СВИНЬИ (Hadoop)

Предположите, что у меня есть следующий вход у Свиньи: некоторые И я хотели бы преобразовать это в: s так som некоторые я еще не нашел способ выполнить итерации по chararray на латыни свиньи. Я нашел МАРКИРОВАНИЕ...
вопрос задан: 9 September 2009 14:52
3
ответа

Потоковая передача данных и Hadoop? (не Hadoop, Передающий потоком)

Я хотел бы проанализировать непрерывный поток данных (получил доступ по HTTP), использование подхода MapReduce, таким образом, я изучал Apache Hadoop. К сожалению, кажется, что Hadoop ожидает запускать задание...
вопрос задан: 2 August 2009 00:24
3
ответа

Как алгоритм сортировки MapReduce работает?

Одним из основных примеров, который используется в демонстрации питания MapReduce, является сравнительный тест Terasort. Я испытываю затруднения при понимании основ алгоритма сортировки, используемого в MapReduce...
вопрос задан: 20 July 2009 10:07
3
ответа

Как Hive выдерживает сравнение с HBase?

Я интересуюсь обнаружением, как недавно выпущенный (http://mirror.facebook.com/facebook/hive/hadoop-0.17/) Hive выдерживает сравнение с HBase с точки зрения производительности. Подобный SQL интерфейс, используемый Hive...
вопрос задан: 23 August 2008 12:22
2
ответа

В чем разница между Hadoop fs и обычными командами Unix?

Я новичок в Hadoop и HDFS, я пытаюсь понять, почему нужны команды Hadoop fs, а не просто использование эквивалентов команд Unix. Кажется, они оба работают, моей первой мыслью была команда Hadoop ...
вопрос задан: 16 April 2019 23:07
2
ответа

java.io.IOException: нет файловой системы для схемы: maprfs. Добавление jar maprfs в bash_profile не работает

Я получаю следующую ошибку при запуске следующей команды через spark-shell. Я также добавил банку maprfs в свой bash_profile, как показано ниже. Я попробовал большинство решений из аналогичных постов, ...
вопрос задан: 18 March 2019 23:09
2
ответа

Создание кластера EMR с использованием запуска Airflow dag. После выполнения задачи EMR будет прервана.

У меня есть задания Airflow, которые нормально работают на кластере EMR. что мне нужно, скажем, если у меня есть 4 задания потока воздуха, для которых требуется кластер EMR, скажем, 20 минут для выполнения задачи. почему не мы ...
вопрос задан: 18 March 2019 18:15
2
ответа

Spark S3A пишет пропускает загрузку части без сбоев

Я использую Spark 2.4.0 с Hadoop 2.7, hadoop-aws 2.7.5 для записи наборов данных в файлы паркета на S3A. Иногда часть файла будет отсутствовать; то есть часть 00003 здесь: > aws s3 ls my-bucket / folder / ...
вопрос задан: 28 February 2019 23:25
2
ответа

Улей - это хорошо подходит для создания хранилища данных?

Так что, как и большинство корпоративных компаний, мы создали хранилище данных в Hadoop, в котором пользовательские запросы поддерживаются в Hive, и теперь, спустя несколько месяцев и приемочного тестирования, все немного удивляются ...
вопрос задан: 17 January 2019 17:15
2
ответа

Найти трассировку стека для задания рабочего процесса, запущенного из координатора Oozie

У меня есть простой координатор Oozie с этой спецификацией: < имя-координатора-приложения = "my-координата" частота = "$ {ordin: days (1)}" start = "$ {startDate}" end = "$ { endDate} "timezone =" UTC "...
вопрос задан: 16 January 2019 14:28
2
ответа

Hadoop не использует файлы конфигурации?

Я развертываю Hadoop на работе, и я несколько раз искал некоторые проблемы. Вчера он работал отлично, но сегодня что-то странное происходит. У меня есть hasoop.tmp.dir, установленный в файле core-site.xml ...
вопрос задан: 14 July 2018 00:24
2
ответа

Как скопировать файлы из одного каталога HDFS в другой HDFS Dir в искровом / скале ETL Job [duplicate]

У меня есть работа Spark ETL в процессе нужно скопировать из одного hdfs-каталога в другой каталог hdfs с помощью java / scala-клиента, каков эффективный способ копирования? Я ищу способ, если что-то в ...
вопрос задан: 12 January 2018 15:08
2
ответа

Карта Hadoop уменьшает: алгоритмы

Может кто-то указывать на меня на хороший веб-сайт с хорошим набором алгоритмов Hadoop. Например, самой сложной вещью, которую я могу сделать с Hadoop прямо сейчас, является Разряд Страницы. Кроме этого, я могу сделать...
вопрос задан: 14 December 2017 10:02
2
ответа

Запуск автономного приложения Hadoop на нескольких ядрах ЦП

Моя команда создала приложение Java с использованием библиотек Hadoop для преобразования куча входных файлов в полезный вывод. Учитывая текущую загрузку одного многоядерного сервера, все будет хорошо в течение следующего года или ...
вопрос задан: 23 May 2017 11:53
2
ответа

Выполненное задание Hadoop, не используя JobConf

Я не могу найти единственный пример представления задания Hadoop, которое не использует класс JobConf устаревший. JobClient, который не был удержан от использования, все еще только поддерживает методы, которые берут JobConf...
вопрос задан: 7 March 2016 02:28