0
ответов

Хранение результатов UNION в PIG в одном файле

У меня есть скрипт PIG, который выдает четыре результата Я хочу сохранить их все в одном файле. Я пытаюсь использовать UNION, однако, когда я использую UNION, я получаю четыре файла part-m-00000, part-m-00001, part-m-00002, ...
вопрос задан: 8 June 2012 23:02
0
ответов

HDFS: Как вы рекурсивно составляете список файлов?

Как с помощью Java составить список всех файлов (рекурсивно) по определенному пути в HDFS. Я зашел в API и заметил FileSystem.listFiles(Path,boolean), но похоже, что такого метода не существует...
вопрос задан: 8 June 2012 00:51
0
ответов

как найти файл из blockName в HDFS hadoop

Какой самый простой способ найти файл, связанный с блоком в HDFS, по имени/идентификатору блока
вопрос задан: 4 June 2012 12:40
0
ответов

Различия между API-интерфейсами hflush и hsync в HDFS

Может ли кто-нибудь выделить технические детали и когда какие из них использовать.
вопрос задан: 12 April 2012 10:21
0
ответов

Что лучше всего использовать для объединения соединений Hive JDBC

Я использую драйвер Hive JDBC для выполнения sql-подобного запроса к моему хранилищу данных HDFS. Я пытался использовать c3p0 для обработки пула соединений. Я не уверен, что это правильный подход, так как запрос Hive ...
вопрос задан: 3 April 2012 16:24
0
ответов

Может ли Hadoop распределять задачи и базу кода?

Я начинаю экспериментировать с hadoop (но пока у меня нет доступа к кластеру, поэтому просто поиграю в автономном режиме). У меня вопрос: как только задачи распределяются в кластере, и как ...
вопрос задан: 17 February 2012 15:13
0
ответов

Обновление файла Hadoop HDFS

Я новичок в Hadoop. Я читал, что HDFS - это в основном «писать один раз, читать каждый раз». У меня есть случай использования, когда мне, возможно, придется внести изменения в файлы, хранящиеся в HDFS. У меня ...
вопрос задан: 1 February 2012 22:38
0
ответов

HDFS против GridFS: когда какую использовать?

HDFS и GridFS - две отличные технологии для распределенного сохранения файлов, но в чем их отличия? Какие типы проблем лучше подходят для каждой из них?
вопрос задан: 31 January 2012 09:15
0
ответов

javax.management.InstanceAlreadyExistsException when using hadoop MiniDFSCluster

Я использую MiniDFSCluster для проведения junit тестов. Теперь я просто запускаю и закрываю кластер, junit работает зелено. Но я получаю это исключение: javax.management.InstanceAlreadyExistsException: MXBean уже ...
вопрос задан: 24 January 2012 18:24
0
ответов

Hadoop: как получить доступ к (многим) фотоизображениям для обработки с помощью map / reduce?

У меня более 10 миллионов фотографий, сохраненных в локальной файловой системе. Теперь я хочу пройтись по каждому из них, чтобы проанализировать двоичный файл фотографии, чтобы увидеть, собака ли это. Я в основном хочу провести анализ на кластеризованной
вопрос задан: 6 January 2012 02:50
0
ответов

Удаленный доступ к namenode не разрешен, несмотря на то, что службы уже запущены.

I успешно установил и запустил Hadoop на одном компьютере с IP-адресом 192.168.1.109 (на самом деле это экземпляр Ubuntu, работающий на виртуальном компьютере). При вводе jps отображается 2473 DataNode ...
вопрос задан: 1 January 2012 15:10
0
ответов

Импорт данных из HDFS в HBase (cdh3u2)

Я установил hadoop и hbase cdh3u2. В hadoop у меня есть файл по пути /home/file.txt. у него есть данные как один, 1 два, 2 three, 3 Я хочу импортировать этот файл в hbase. в этом, первое поле ...
вопрос задан: 27 December 2011 14:20
0
ответов

Распределенное чтение HDFS без Map / Reduce

Можно ли добиться распределенного чтения из кластера HDSF с помощью клиента HDFS на одной машине? Я провел эксперимент с кластером, состоящим из 3 узлов данных (DN1, DN2, DN3). Затем я запускаю ...
вопрос задан: 10 December 2011 05:00
0
ответов

Hadoop fs ищет размер блока?

Как в Hadoop fs найти размер блока для конкретного файла? Меня в первую очередь интересовала командная строка, что-то вроде: hadoop fs ... hdfs: //fs1.data / ... Но похоже, что это не так ...
вопрос задан: 7 December 2011 06:17
0
ответов

Разница между hadoop fs -put и hadoop fs -copyFromLocal

-put и -copyFromLocal задокументированы как идентичные, в то время как в большинстве примеров используется подробный вариант -copyFromLocal. Почему? То же самое для -get и -copyToLocal
вопрос задан: 18 October 2011 06:29
0
ответов

Использование шифрования в Hadoop

В документации Cloudera говорится, что Hadoop не поддерживает шифрование на диске. Можно ли использовать в Hadoop жесткие диски с аппаратным шифрованием?
вопрос задан: 4 October 2011 15:01
0
ответов

iPhone UDP вещание и ответ

Мне нужно отправить UDP вещание с iPhone, а затем прослушать ответ UDP с периодом тайм-аута. Я нашел пример Apple UDPEcho, но я не уверен, что это то, что мне нужно. Также найден...
вопрос задан: 3 October 2011 03:25
0
ответов

LeaseExpiredException: нет ошибки аренды на HDFS

Я пытаюсь загрузить большие данные в HDFS, и иногда я получаю сообщение об ошибке ниже. есть идеи почему? Ошибка: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode ....
вопрос задан: 26 September 2011 18:55
0
ответов

HDFS шифрует или сжимает данные во время хранения?

, когда я помещаю файл в HDFS, например, $. /BIN/HADOOP /DFS -PUT / POSTE / FILE введите файл, сжатый во время хранения? Файл зашифрован во время хранения? Есть ли настройка конфигурации, которую мы можем ...
вопрос задан: 19 September 2011 04:02
0
ответов

Git предупреждает, если последовательность появляется в источнике (или diff)

Я хотел бы, чтобы при постановке † в git-репо ‡, если изменения, которые я собираюсь зафиксировать, содержат определенную последовательность (скажем, @ todo или @ hack). Может ли кто-то показать мне, как этого добиться? † или предупредил. ‡ ...
вопрос задан: 3 September 2011 04:52
0
ответов

Проблема с разрешениями Apache Pig

Я пытаюсь запустить Apache Pig в моем кластере Hadoop, но у меня возникает проблема с разрешениями. Сам Pig запускается и подключается к кластеру просто отлично - из Pig ...
вопрос задан: 25 August 2011 16:38
0
ответов

Как hive / hadoop гарантирует, что каждый модуль отображения работает с локальными для него данными?

2 основных вопроса, которые меня беспокоят: как я могу быть уверен, что каждый из 32 файлов, которые куст использует для хранения моих таблиц, находится на его уникальная машина? Если это произойдет, как я могу быть уверен, что если улей создает 32 ...
вопрос задан: 4 August 2011 12:56
0
ответов

왜 hadoop이 큰 텍스트 파일을 분할 한 다음 gzip을 사용하여 분할을 압축 할 수 없습니까?

최근에 hadoop과 HDFS를 조사했습니다. 파일을 HDFS로로드하면 일반적으로 파일을 64MB 청크로 분할하고 이러한 청크를 클러스터에 배포합니다. 할 수없는 것을 제외하고는 ...
вопрос задан: 28 June 2011 20:20
0
ответов

Можно ли параллельно добавлять файлы HDFS с нескольких клиентов?

В основном весь вопрос в заголовке. Мне интересно, можно ли добавить файл, расположенный в HDFS, с нескольких компьютеров одновременно? Что-то вроде постоянного хранения потока событий ...
вопрос задан: 17 June 2011 17:40
0
ответов

Какое максимальное количество файлов разрешено в каталоге HDFS?

Какое максимальное количество файлов и каталогов разрешено в каталоге HDFS (hadoop)?
вопрос задан: 15 June 2011 14:06
0
ответов

«hadoop namenode -format» возвращает исключение java.net.UnknownHostException

В настоящее время я изучаю hadoop и пытаюсь настроить тест одного узла, как определено в http://hadoop.apache.org/common/docs/current/single_node_setup.html Я настроил ssh (я могу регистрировать без ...
вопрос задан: 10 June 2011 13:47
0
ответов

Er inndataformatet ansvarlig for implementering av datalokalitet i Hadoop's MapReduce?

Jeg prøver å forstå datalokaliteten slik den er relatert til Hadoop's Map / Reduce framework. Spesielt prøver jeg å forstå hvilken komponent som håndterer datalokalitet (dvs. er det inngangsformatet?) ...
вопрос задан: 25 May 2011 17:13
0
ответов

Обработка большого набора небольших файлов с помощью Hadoop

Я использую пример программы WordCount на Hadoop для обработки большого набора небольших файлов / веб-страниц (примерно 2–3 КБ). Поскольку это далеко от оптимального размера файла для файлов hadoop, программа работает очень медленно. Я ...
вопрос задан: 8 May 2011 23:01
0
ответов

Метод перемешивания / сортировки MapReduce

Довольно странный вопрос, но знает ли кто-нибудь, какой вид сортировки использует MapReduce в части сортировки при перемешивании / сортировке? Я бы подумал, что слияние или вставка (в соответствии со всей парадигмой MapReduce), ...
вопрос задан: 25 April 2011 15:05
0
ответов

Импорт данных из HDFS в таблицу Hive

У меня есть данные в файле data/2011/01/13/0100/file в HDFS, каждый из этих файлов содержит данные, разделенные табуляцией, скажем, имя, ip, url. Я хочу создать таблицу в Hive и импортировать данные из hdfs, таблица должна ...
вопрос задан: 22 April 2011 23:22