Распознавание, анализ, фильтрация данных, а преобразование - с графическим интерфейсом?

Ищете не облачное приложение с открытым исходным кодом для преобразования данных; хотя на убийственное (я имею в виду убийственное) приложение, только что созданное для преобразования данных, я мог бы потратить до 1000 долларов.

Я просмотрел Perl , Kapow Katalyst ], Pentaho Kettle и др.

Perl, Python, Ruby , которые явно являются языками, но не могут найти никаких фреймворков / DSL только для обработки данных; Это означает, что они на самом деле не являются отличными средами разработки, то есть нет встроенного графического интерфейса для создания RegEx, ввода / вывода (CSV, XML, JDBC, REST и т. д. ), нет отладчика для тестирования строк и строк данных - они тоже неплохие, просто не то, что я ищу, а именно графический интерфейс, созданный для сложных преобразований данных; Тем не менее, мне бы хотелось, чтобы файл GUI / приложения был на языке сценариев, а НЕ просто хранился в каком-то нечитаемом человеком файле XML / ASCII.

Kapow Katalyst предназначен для доступа к данным через HTTP (HTML , CSS, RSS, JavaScript и т. Д.) У него есть красивый графический интерфейс для преобразования неструктурированного текста, но это не его основная ценность, и это слишком дорого. Он отлично справляется с перемещением путей пространства имен документов; предполагая, что это просто XPath на внутренней стороне, поскольку синтаксис выглядит одинаковым.

Pentaho Kettle имеет приятный графический интерфейс для ВВОДА / ВЫВОДА наиболее распространенных хранилищ данных, а также свой собственный подход к обработке данных; что нормально, и у него просто небольшая кривая обучения. Отладчик Kettle в порядке, поскольку данные легко увидеть, но ошибки и исключения не связаны с выходными данными, и нет никакого способа отладить проблему; это означает, что вы не можете перезагрузить вывод / ошибку / исключение, но можете просматривать отзывы системы. Все это говорит о том, что преобразование данных Kettle - это _______ ну, давайте просто скажем, что это оставило у меня чувство, будто я что-то упускаю, потому что я был полностью озадачен тем, что «если это невозможно, просто напишите преобразование на JavaScript»; ммм, что?

Итак, есть предложения? Поймите, что я на самом деле не специфицировал никаких преобразований , но подумайте, если вы действительно используете продукт для изменения данных, я хотел бы знать об этом;

В целом, в настоящее время я ' m ищу продукт, способный обрабатывать 1000–100000 строк с 10–100 столбцами. Было бы очень круто, если бы он мог профилировать наборы данных, что вроде как функция Kettle, но не очень хорошо. Я также хотел бы встроить модульное тестирование, то есть я могу создавать контрольные наборы данных и выполнять изменения, внесенные в контрольный набор. Затем я хотел бы иметь возможность выборочно отфильтровывать строки и столбцы при построении преобразования без изменения сборки; например, я запускаю набор данных через преобразование, фильтрую результаты, и при следующем запуске эти наборы автоматически блокируются при первом «логическом» возникновении; что, в свою очередь, означало бы меньше данных для «просмотра» и сокращение времени выполнения на каждой расширенной итерации; что было бы безумно приятно, если бы как я d отфильтровывая строки / столбцы, которые отслеживает приложение (и вывод был отфильтрован). и модуль протестировал / выделил любые изменения. Если я внесу изменение, которое повлияет на журналы приложения и его способность отслеживать модульные тесты на основе того, что я «нарушаю ветвь» - это даст мне предупреждение, позвольте мне сбросить сохраненную ветку данных ... и / или отслеживать первичные ключи для различий в следующем поколении вывода, или даже попытка сопоставить их с использованием нечеткой логики. И да, я знаю, что это несбыточная мечта, но эй, подумал, что спрошу, на всякий случай есть что-то, чего я никогда не видел.

Не стесняйтесь комментировать, я буду рад ответить на любой вопросы или предложите дополнительную информацию.

5
задан Matthew Murdoch 28 February 2013 в 23:19
поделиться