Как обрезать строку заголовка из файлов, обработанных Hadoop's Pig?

Question

Как обрезать строку заголовка из файлов, обработанных Hadoop's Pig?

Я пытаюсь проанализировать файлы данных с разделением табуляцией, созданные нашими сервисами, с помощью Amazon Elastic Map Reduce через программу Pig. Все идет хорошо, за исключением того, что все наши файлы данных содержат строку заголовка, определяющую назначение каждого столбца. Очевидно, что (строковые) заголовки не могут быть преобразованы в числовые значения данных, поэтому я получаю предупреждения от Pig вроде следующего:

2011-03-17 22:49:55,378 [main] WARN  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigHadoopLogger - org.apache.pig.builtin.PigStorage: Unable to interpret value [<snip>] in field being converted to double, caught NumberFormatException <For input string: "headerName"> field discarded

У меня есть фильтр после оператора загрузки, который пытается гарантировать, что я не буду позже работают с любыми строками заголовков (путем фильтрации терминов заголовков), но я бы хотел избавиться от предупреждающего шума, чтобы избежать маскировки любых потенциальных проблем (например, фактических полей данных, которые не приводятся должным образом).

Возможно ли это ?

5

hadoop apache-pig

задан Chris Phillips 17 March 2011 в 23:02

0 ответов

Другие вопросы по тегам:

hadoop apache-pig

Как обрезать строку заголовка из файлов, обработанных Hadoop's Pig?

0 ответов

Похожие вопросы: