Как разделить слова в «предложении» пробелами?

Предпосылки

Требуется автоматизировать создание доменов в JasperServer. Домены - это «просмотр» данных для создания специальных отчетов. Имена столбцов должны быть представлены пользователю в удобочитаемой форме.

Проблема

Их более 2, 000 возможных фрагментов данных, которые организация теоретически может захотеть включить в отчет. Данные получены от имен, не понятных человеку, таких как:

payperiodmatchcode labordistributioncodedesc зависимые отношения действие действиеendoptiondesc addresstype addresstypedesc historytype psaddresstype имя роли bankaccountstatus bankaccountstatusdesc bankaccounttype bankaccounttypedesc получателя сумма получателькласс получательпроцент льготыподкласс получателькласс бенефициарклассdesc выгодакод действия выгода выгода выгода ageconrolagelimit ageconrolnoticeperiod

Вопрос

Как бы вы автоматически изменили такие имена на:

  • код соответствия периода оплаты
  • код распределения рабочей силы desc
  • зависимые отношения

Идеи

  • Используйте Google Вы означает движок, однако я думаю, что он нарушает их TOS:

    lynx -dump «url» | grep "Возможно, вы имели в виду" | awk ...

Языки

Подойдет любой язык, но парсеры текста, такие как Perl, вероятно, подойдут. (Имена столбцов приведены только на английском языке.)

Ненужное превосходство

Целью является не 100% -ное совершенство в разделении слов; приемлем следующий результат:

  • enrollmenteffectivedate -> Дата вступления в силу
  • enrollmentenddate -> Enroll Men Tend Date
  • enrollmentrequirementset -> Enrollment Requirement Set

Независимо от того, что, человеку нужно будет перепроверить результаты и исправить многие. Сокращение набора из 2000 результатов до 600 правок позволит значительно сэкономить время. Зацикливаться на некоторых случаях, имеющих несколько возможностей (например, имя терапевта), значит вообще упустить суть.

11
задан hippietrail 8 September 2014 в 03:37
поделиться