Анализировать текст (лемматизация, редактировать расстояние)

Мне нужно проанализировать текст на предмет наличия в нем запрещенных слов. Предположим, в черном списке есть слово:« Запрещать » Слово имеет множество форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещающий». Чтобы привести слово к исходному виду, я использую процесс лемматизации. Ваши предложения?

А как насчет опечаток?
Например: «F0rb1d». Думаю, используйте damerau – Levenshtein или другой. Ваши предложения?

А что, если текст написан следующим образом :
запрещено "," ...

Мне нужно проанализировать текст на предмет наличия в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет множество форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещающий». Чтобы привести слово к исходному виду, я использую процесс лемматизации. Ваши предложения?

А как насчет опечаток?
Например: "F0rb1d". Думаю использовать дамерау – Левенштейна или другое. Вы предлагаете?

А что делать, если текст написан так :
запрещено "," ...

Мне нужно проанализировать текст на наличие в нем запрещенных слов. Допустим, в черном списке есть слово: «Запретить». Слово имеет множество форм. В тексте слово может быть, например: «запрещающий», «запрещенный», «запрещающий». Чтобы привести слово к исходному виду, я использую процесс лемматизации. Ваши предложения?

А как насчет опечаток?
Например: "F0rb1d". Думаю использовать дамерау – Левенштейна или другое. Вы предлагаете?

А что делать, если текст написан так :
Чтобы привести слово к исходному виду, я использую процесс лемматизации. Ваши предложения?

А как насчет опечаток?
Например: "F0rb1d". Думаю использовать дамерау – Левенштейна или другое. Вы предлагаете?

А что делать, если текст написан так :
Чтобы привести слово к исходному виду, я использую процесс лемматизации. Ваши предложения?

А как насчет опечаток?
Например: "F0rb1d". Думаю использовать дамерау – Левенштейна или другое. Вы предлагаете?

А что делать, если текст записан так :
«Запрещенная информация. Личная переписка компании». ИЛИ "F0rb1dden1nformation.Privatecorresp0ndenceofthec0mpany." (да, без пробелов)

Как решить эту проблему?
Желательно быстрый алгоритм, потому что текст обрабатывается в реальном времени.
И, может быть, какие советы по повышению производительности (как хранить и т.д.)?

7
задан Alexei 7 July 2019 в 14:27
поделиться