Обработка естественного языка: Найти ругательства на английском языке?

Question

Обработка естественного языка: Найти ругательства на английском языке?

\r соответствия < CR>

\n соответствия конец строки - При соответствии в строке вместо буферного текста литеральный символ новой строки подобран.

6

java nlp

задан Ken Bloom 3 December 2009 в 17:54

10 ответов

Это фраза Я хочу засунуть своего длинношеего жирафа в вашего пушистого белого кролика непристойное?

8

ответ дан 8 December 2019 в 04:52

Я бы составил огромный список.

У регулярных выражений есть проблема пропусков зажигания, когда они применяются к естественному языку, особенно за некоторыми исключениями, которые есть в английском языке.

2

ответ дан 8 December 2019 в 04:52

Одной из проблем с фильтрами такого типа является их тенденция отмечать полностью правильные английские названия городов, такие как Сканторп. Хотя это можно уменьшить, проверяя слово целиком, а не части, затем вы обнаружите, что люди пользуются преимуществом, объединяя свои оскорбительные слова с соседним текстом.

1

ответ дан 8 December 2019 в 04:52

It зависит от вашего источника текста, но я бы выбрал какой-то установленный и проверенный алгоритм сопоставления с образцом, например, используя Trie .

0

ответ дан 8 December 2019 в 04:52

Обратите внимание, что любая логика НЛП, подобная этой, будет подвергаться атакам «замены символов»:

Например, я могу написать «привет» как «he11o», заменив L на One. То же и с матом. Таким образом, хотя идеального ответа нет, подход «черных списков» «плохих слов» может сработать. Остерегайтесь ложных срабатываний (я бы сравнил свой черный список с большой книгой, чтобы посмотреть, что получится)

2

ответ дан 8 December 2019 в 04:52

Используйте лемматизатор морфии, встроенный в WordNet, а затем определить, является ли лемма непристойной. Это решит проблему различных форм глаголов, множественного числа и т. Д.

0

ответ дан 8 December 2019 в 04:52

Я бы поддержал большой список простых регулярных выражений. Меньше, чем список вариантов, но не пытается уловить ничего, кроме буквенных альтернатив в любом заданном выражении: например, "f [ u _- @ # $% ^ & *.] Ck".

0

ответ дан 8 December 2019 в 04:52

Вы хотите использовать Байесовский анализ для решения этой проблемы. Байесовская вероятность - это мощный метод, используемый фильтрами спама для обнаружения нежелательных / фишинговых сообщений в вашем почтовом ящике. Вы можете обучить свой механизм анализа, чтобы со временем он улучшился. Возможность обнаружить подлинное электронное письмо по сравнению со спамом - это то же самое, что и проблема, с которой вы столкнулись.

Вот пара полезных ссылок:

План защиты от спама - первое предложение по использованию байесовского анализа для борьбы со спамом.

Data Mining (ppt) - Это написал мой коллега.

0

ответ дан 8 December 2019 в 04:52

Есть веб-сервисы, которые делают такие вещи на английском языке.

Я уверен, что есть и другие, но я уже использовал WebPurify в проекте именно по этой причине.

0

ответ дан 8 December 2019 в 04:52

Другие вопросы по тегам:

java nlp

Обработка естественного языка: Найти ругательства на английском языке?

10 ответов

Похожие вопросы: