Обработка большого набора небольших файлов с помощью Hadoop

Я использую пример программы WordCount на Hadoop для обработки большого набора небольших файлов / веб-страниц (примерно 2–3 КБ). Поскольку это далеко от оптимального размера файла для файлов hadoop, программа работает очень медленно. Я думаю, это потому, что стоимость установки и разрыва работы намного выше, чем сама работа. Такие небольшие файлы также вызывают истощение пространств имен для имен файлов.

Я прочитал, что в этом случае мне следует использовать архив HDFS (HAR), но я не уверен, как изменить эту программу WordCount для чтения из этих архивов. Может ли программа продолжать работать без модификаций или необходимы какие-то модификации?

Даже если я запаковываю много файлов в архивы, остается вопрос, улучшит ли это производительность. Я читал, что даже если я упакую несколько файлов, эти файлы внутри одного архива не будут обрабатываться одним картографом, а будут обрабатываться многими, что в моем случае (я полагаю) не улучшит производительность.

Если этот вопрос слишком простой, пожалуйста понимаю, что я новичок в Hadoop и у меня очень мало опыта работы с ним.

6
задан Sasa 8 May 2011 в 23:01
поделиться