Извлечь неверно отформатированную дату из строки (анализ даты, NLP)

У меня есть большой список файлов, в имени некоторых из которых есть даты. Формат дат непоследователен и часто неполон, например «Aug06», «Aug2006», «August 2006», «08-06», «01-08-06», «2006», «011004» и т. Д. В дополнение к этому, некоторые имена файлов имеют несвязанные номера, которые выглядят как даты, например «20202010».

Короче говоря, даты обычно неполные, иногда их нет, они неправильно отформатированы и встроены в строку с другой информацией, например «Отчет Aug06.xls».

Существуют ли какие-либо модули Perl, которые могут правильно угадать дату по такой строке? Это не обязательно должно быть на 100% правильным, так как это будет проверено человеком вручную, но я стараюсь максимально упростить задачу для этого человека, и есть тысячи записей, которые нужно проверить :)

6
задан El Yobo 10 August 2010 в 06:27
поделиться