Методы извлечения регулярных выражений из помеченного набора данных

Предположим, у меня есть набор данных из нескольких сотен тысяч строк (которые, если это имеет значение, являются предложениями на естественном языке), каждая из которых помечена определенной «меткой». Каждое предложение помечено ровно одной меткой, всего имеется около 10 меток, каждой из которых принадлежит примерно 10% набора данных. Существует высокая степень сходства структуры предложений внутри ярлыка.

Я знаю, что вышеизложенное звучит как классический пример задачи машинного обучения, но я хочу задать немного другой вопрос. Существуют ли какие-либо известные методы для программного создания набора регулярных выражений для каждой метки, которые могут успешно классифицировать обучающие данные, в то же время обобщая будущие тестовые данные?

Буду очень рад ссылкам на литературу; Я понимаю, что это не будет простым алгоритмом :)

PS:Я знаю, что обычный способ классификации — это методы машинного обучения, такие как SVM или подобные. Однако я явно ищу способ генерировать регулярные выражения.(Я был бы доволен методами машинного обучения для генерации регулярных выражений, но не методами машинного обучения для самой классификации!)

7
задан Adrian Petrescu 24 May 2012 в 16:00
поделиться