Я пытаюсь проанализировать файлы данных с разделением табуляцией, созданные нашими сервисами, с помощью Amazon Elastic Map Reduce через программу Pig. Все идет хорошо, за исключением того, что все наши файлы данных содержат строку заголовка, определяющую назначение каждого столбца. Очевидно, что (строковые) заголовки не могут быть преобразованы в числовые значения данных, поэтому я получаю предупреждения от Pig вроде следующего:
2011-03-17 22:49:55,378 [main] WARN org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigHadoopLogger - org.apache.pig.builtin.PigStorage: Unable to interpret value [<snip>] in field being converted to double, caught NumberFormatException <For input string: "headerName"> field discarded
У меня есть фильтр после оператора загрузки, который пытается гарантировать, что я не буду позже работают с любыми строками заголовков (путем фильтрации терминов заголовков), но я бы хотел избавиться от предупреждающего шума, чтобы избежать маскировки любых потенциальных проблем (например, фактических полей данных, которые не приводятся должным образом).
Возможно ли это ?