Как программно обнаруживать уязвимую / личную информацию в резюме (с помощью синтаксического анализа / анализа и т. Д.)…

Чтобы конкретизировать вопрос:

  1. Как определить имена людей (кажется, простой случай извлечения именованных объектов?)
  2. Как определить адреса: моя лучшая догадка - найти почтовый индекс ( регулярные выражения); названия стран и городов и тексты вокруг них.
  3. Что касается телефонов, электронных писем - они могут быть, вероятно, уловлены различными регулярными выражениями + предварительная обработка
  4. На данный момент не волнует образование / опыт работы

Причина: Для построения полнотекстового индекса по резюме вся уязвимая информация должна быть удалена из них.

PS любые сторонние API / службы не будут подходить как решение.

1
задан bushed 1 September 2010 в 21:53
поделиться